論文の概要: Fast Learning of Non-Cooperative Spacecraft 3D Models through Primitive Initialization
- arxiv url: http://arxiv.org/abs/2507.19459v1
- Date: Fri, 25 Jul 2025 17:43:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:49.055527
- Title: Fast Learning of Non-Cooperative Spacecraft 3D Models through Primitive Initialization
- Title(参考訳): 原始初期化による非協調宇宙機3次元モデルの高速学習
- Authors: Pol Francesch Huc, Emily Bates, Simone D'Amico,
- Abstract要約: この研究は、モノクロ画像を用いた3DGSのための畳み込みニューラルネットワーク(CNN)ベースのプリミティブイニシャライザに寄与する。
CNNは、入力として単一の画像を取り込み、カメラに対してターゲットのポーズとともにプリミティブのアセンブリとして表される粗い3Dモデルを出力する。
この研究はこれらの変種の比較を行い、ノイズまたは暗黙のポーズ推定の下で下流3DGSトレーニングの有効性を評価する。
- 参考スコア(独自算出の注目度): 3.686808512438363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of novel view synthesis techniques such as NeRF and 3D Gaussian Splatting (3DGS) has enabled learning precise 3D models only from posed monocular images. Although these methods are attractive, they hold two major limitations that prevent their use in space applications: they require poses during training, and have high computational cost at training and inference. To address these limitations, this work contributes: (1) a Convolutional Neural Network (CNN) based primitive initializer for 3DGS using monocular images; (2) a pipeline capable of training with noisy or implicit pose estimates; and (3) and analysis of initialization variants that reduce the training cost of precise 3D models. A CNN takes a single image as input and outputs a coarse 3D model represented as an assembly of primitives, along with the target's pose relative to the camera. This assembly of primitives is then used to initialize 3DGS, significantly reducing the number of training iterations and input images needed -- by at least an order of magnitude. For additional flexibility, the CNN component has multiple variants with different pose estimation techniques. This work performs a comparison between these variants, evaluating their effectiveness for downstream 3DGS training under noisy or implicit pose estimates. The results demonstrate that even with imperfect pose supervision, the pipeline is able to learn high-fidelity 3D representations, opening the door for the use of novel view synthesis in space applications.
- Abstract(参考訳): NeRFや3D Gaussian Splatting(3DGS)のような新しいビュー合成技術の出現により、単眼画像のみから正確な3Dモデルを学習できるようになった。
これらの手法は魅力的だが、宇宙アプリケーションでの使用を妨げる2つの大きな制限がある:訓練中にポーズが必要であり、訓練と推論において高い計算コストを持つ。
これらの制約に対処するため、(1)モノクロ画像を用いた3DGSのための畳み込みニューラルネットワーク(CNN)ベースのプリミティブイニシャライザ、(2)ノイズや暗黙のポーズ推定でトレーニング可能なパイプライン、(3)正確な3Dモデルのトレーニングコストを削減できる初期化変種の解析に寄与する。
CNNは、入力として単一の画像を取り込み、カメラに対してターゲットのポーズとともにプリミティブのアセンブリとして表される粗い3Dモデルを出力する。
このプリミティブのアセンブリは3DGSの初期化に使用され、必要なトレーニングイテレーションと入力イメージの数を少なくとも1桁削減する。
さらなる柔軟性のために、CNNコンポーネントは異なるポーズ推定技術を持つ複数の変種を持つ。
この研究はこれらの変種の比較を行い、ノイズまたは暗黙のポーズ推定の下で下流3DGSトレーニングの有効性を評価する。
その結果,不完全なポーズ監視においても,パイプラインは高忠実度3D表現を学習することができ,空間応用における新規なビュー合成の扉を開くことができた。
関連論文リスト
- UniPre3D: Unified Pre-training of 3D Point Cloud Models with Cross-Modal Gaussian Splatting [64.31900521467362]
既存の事前学習方法は、オブジェクトレベルとシーンレベルの両方の点群に対して等しく有効である。
UniPre3Dは,任意のスケールの点群やアーキテクチャの3Dモデルに対してシームレスに適用可能な,最初の統合事前学習手法である。
論文 参考訳(メタデータ) (2025-06-11T17:23:21Z) - Recollection from Pensieve: Novel View Synthesis via Learning from Uncalibrated Videos [36.49978976710115]
本稿では、生のビデオフレームや多視点画像のみからビュー合成モデルを訓練するための新しい2段階戦略を提案する。
第1段階では、明示的な3D表現に頼ることなく、潜在空間で暗黙的にシーンを再構築することを学ぶ。
学習した潜入カメラと暗黙のシーン表現は、実世界と比較すると大きなギャップがある。
論文 参考訳(メタデータ) (2025-05-19T17:59:05Z) - DINeMo: Learning Neural Mesh Models with no 3D Annotations [7.21992608540601]
カテゴリーレベルの3D/6Dポーズ推定は、総合的な3Dシーン理解に向けた重要なステップである。
最近の研究は、分析バイシンセサイザーの観点から、2Dおよび3Dタスクにアプローチするニューラルネットワークモデルについて検討している。
疑似対応を利用して3次元アノテーションを使わずにトレーニングした新しいニューラルネットワークモデルであるDINeMoを提案する。
論文 参考訳(メタデータ) (2025-03-26T04:23:53Z) - KeyGS: A Keyframe-Centric Gaussian Splatting Method for Monocular Image Sequences [14.792295042683254]
深度やマッチングモデルなしで動作可能な,効率的なフレームワークを提案する。
そこで本研究では,細かな周波数認識による粗大な密度密度化を提案し,異なるレベルの詳細を再構築する。
論文 参考訳(メタデータ) (2024-12-30T07:32:35Z) - DSplats: 3D Generation by Denoising Splats-Based Multiview Diffusion Models [67.50989119438508]
本稿では,ガウスをベースとしたレコンストラクタを用いて,リアルな3Dアセットを生成することで,マルチビュー画像を直接認識するDSplatを紹介した。
実験の結果,DSplatsは高品質で空間的に一貫した出力を生成できるだけでなく,単一画像から3次元再構成への新たな標準も設定できることがわかった。
論文 参考訳(メタデータ) (2024-12-11T07:32:17Z) - A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本稿では,2次元監視のみを用いた3次元画像調和拡散モデルの学習フレームワークを提案する。
既存の3D生成モデルは、大規模な3Dデータセットが不足しているため、完全に3Dの監視に依存している。
論文 参考訳(メタデータ) (2024-12-01T00:29:57Z) - No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。