論文の概要: Selfi: Self Improving Reconstruction Engine via 3D Geometric Feature Alignment
- arxiv url: http://arxiv.org/abs/2512.08930v1
- Date: Tue, 09 Dec 2025 18:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:08.109419
- Title: Selfi: Self Improving Reconstruction Engine via 3D Geometric Feature Alignment
- Title(参考訳): Selfi:3次元幾何学的特徴アライメントによる自己改善型リコンストラクションエンジン
- Authors: Youming Deng, Songyou Peng, Junyi Zhang, Kathryn Heal, Tiancheng Sun, John Flynn, Steve Marschner, Lucy Chai,
- Abstract要約: 機能アライメントによる自己改善型3D再構築パイプラインであるSelfiを紹介する。
我々は、リジェクションベースの一貫性損失を使用して軽量な機能アダプタを訓練する。
これにより、NVSとカメラのポーズ推定の両方における最先端のパフォーマンスが実現される。
- 参考スコア(独自算出の注目度): 15.822150318879052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Novel View Synthesis (NVS) has traditionally relied on models with explicit 3D inductive biases combined with known camera parameters from Structure-from-Motion (SfM) beforehand. Recent vision foundation models like VGGT take an orthogonal approach -- 3D knowledge is gained implicitly through training data and loss objectives, enabling feed-forward prediction of both camera parameters and 3D representations directly from a set of uncalibrated images. While flexible, VGGT features lack explicit multi-view geometric consistency, and we find that improving such 3D feature consistency benefits both NVS and pose estimation tasks. We introduce Selfi, a self-improving 3D reconstruction pipeline via feature alignment, transforming a VGGT backbone into a high-fidelity 3D reconstruction engine by leveraging its own outputs as pseudo-ground-truth. Specifically, we train a lightweight feature adapter using a reprojection-based consistency loss, which distills VGGT outputs into a new geometrically-aligned feature space that captures spatial proximity in 3D. This enables state-of-the-art performance in both NVS and camera pose estimation, demonstrating that feature alignment is a highly beneficial step for downstream 3D reasoning.
- Abstract(参考訳): 新規ビュー合成(NVS)は、従来、Structure-from-Motion(SfM)の既知のカメラパラメータと組み合わせて、明示的な3D誘導バイアスを持つモデルに依存してきた。
VGGTのような最近のビジョンファウンデーションモデルは直交的アプローチを採っている -- 3D知識はトレーニングデータと損失目標を通じて暗黙的に取得され、未校正画像のセットから直接カメラパラメータと3D表現の両方のフィードフォワード予測を可能にする。
フレキシブルではあるが,VGGT の特徴は多面的な幾何的整合性に欠けており,このような3次元特徴の整合性の改善は NVS と ポーズ推定の両面において有益であることがわかった。
本稿では,VGGTバックボーンを高忠実度3D再構成エンジンに変換することで,自己改善型3D再構築パイプラインであるSelfiを紹介する。
具体的には,VGGT出力を3次元の空間的近接を捉えた新しい幾何学的特徴空間に蒸留する再投射型整合損失を用いて,軽量な特徴適応器を訓練する。
これにより、NVSとカメラのポーズ推定の両方における最先端のパフォーマンスが実現され、機能アライメントが下流の3D推論にとって非常に有益なステップであることが示される。
関連論文リスト
- Semantic Causality-Aware Vision-Based 3D Occupancy Prediction [63.752869043357585]
視覚に基づく3Dセマンティック占有予測は、3Dビジョンにおいて重要な課題である。
しかし、既存のメソッドは、しばしばモジュラーパイプラインに依存している。
本稿では,モジュール型2D-to-3Dトランスフォーメーションパイプラインの全体的,エンドツーエンドの監視を可能にする新たな因果損失を提案する。
論文 参考訳(メタデータ) (2025-09-10T08:29:22Z) - FastVGGT: Training-Free Acceleration of Visual Geometry Transformer [83.67766078575782]
VGGTは最先端のフィードフォワード視覚幾何学モデルである。
本稿では,VGGTの高速化のためのトレーニングフリーメカニズムを用いて,3次元領域におけるトークンのマージを利用したFastVGGTを提案する。
1000の入力画像により、FastVGGTはVGGTの4倍の高速化を実現し、長いシーケンスシナリオにおけるエラーの蓄積を緩和する。
論文 参考訳(メタデータ) (2025-09-02T17:54:21Z) - ACT-R: Adaptive Camera Trajectories for Single View 3D Reconstruction [16.03389355810877]
多視点合成に適応的な視点計画法を導入する。
我々は3次元コヒーレンスを高めるために時間的一貫性を活用して一連のビューを生成する。
論文 参考訳(メタデータ) (2025-05-13T05:31:59Z) - VGGT: Visual Geometry Grounded Transformer [61.37669770946458]
VGGTは、シーンのすべての重要な3D属性を直接推論するフィードフォワードニューラルネットワークである。
ネットワークは、複数の3Dタスクで最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-03-14T17:59:47Z) - Sparse-view Pose Estimation and Reconstruction via Analysis by Generative Synthesis [25.898616784744377]
観察されたビューの少ないセットを考えると、その観察は完全な正確な3Dを得るのに十分な直接的な証拠を与えていないかもしれない。
a) 新規なビュー合成に基づく生成先行を光度目標と組み合わせて、推定された3Dの質を向上させる方法、(b) アウトレーヤを明示的に推論し、連続最適化に基づく戦略による離散探索を用いて補正する手法であるSparseAGSを提案する。
論文 参考訳(メタデータ) (2024-12-04T18:59:24Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。