論文の概要: OmniVGGT: Omni-Modality Driven Visual Geometry Grounded
- arxiv url: http://arxiv.org/abs/2511.10560v1
- Date: Fri, 14 Nov 2025 01:57:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.929083
- Title: OmniVGGT: Omni-Modality Driven Visual Geometry Grounded
- Title(参考訳): OmniVGT:Omni-Modality Driven Visual Geometry Grounded
- Authors: Haosong Peng, Hao Li, Yalun Dai, Yushi Lan, Yihang Luo, Tianyu Qi, Zhengshen Zhang, Yufeng Zhan, Junfei Zhang, Wenchao Xu, Ziwei Liu,
- Abstract要約: 一般的な3Dファウンデーションモデルは、多様なビジョンタスクの統合のトレンドを導い始めている。
OmniVGTは、トレーニングと推論の両方において、任意の数の補助モダリティを効果的に活用できる新しいフレームワークである。
- 参考スコア(独自算出の注目度): 48.16706802780516
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: General 3D foundation models have started to lead the trend of unifying diverse vision tasks, yet most assume RGB-only inputs and ignore readily available geometric cues (e.g., camera intrinsics, poses, and depth maps). To address this issue, we introduce OmniVGGT, a novel framework that can effectively benefit from an arbitrary number of auxiliary geometric modalities during both training and inference. In our framework, a GeoAdapter is proposed to encode depth and camera intrinsics/extrinsics into a spatial foundation model. It employs zero-initialized convolutions to progressively inject geometric information without disrupting the foundation model's representation space. This design ensures stable optimization with negligible overhead, maintaining inference speed comparable to VGGT even with multiple additional inputs. Additionally, a stochastic multimodal fusion regimen is proposed, which randomly samples modality subsets per instance during training. This enables an arbitrary number of modality inputs during testing and promotes learning robust spatial representations instead of overfitting to auxiliary cues. Comprehensive experiments on monocular/multi-view depth estimation, multi-view stereo, and camera pose estimation demonstrate that OmniVGGT outperforms prior methods with auxiliary inputs and achieves state-of-the-art results even with RGB-only input. To further highlight its practical utility, we integrated OmniVGGT into vision-language-action (VLA) models. The enhanced VLA model by OmniVGGT not only outperforms the vanilla point-cloud-based baseline on mainstream benchmarks, but also effectively leverages accessible auxiliary inputs to achieve consistent gains on robotic tasks.
- Abstract(参考訳): 一般的な3Dファウンデーションモデルは、多様な視覚タスクを統一する傾向を導いてきたが、ほとんどの場合、RGBのみの入力を仮定し、容易に利用できる幾何学的手がかり(例えば、カメラの内在、ポーズ、奥行きマップ)を無視している。
この問題に対処するために、トレーニングと推論の双方において、任意の数の補助的な幾何学的モダリティを効果的に活用できる新しいフレームワークであるOmniVGTを紹介する。
本フレームワークでは,奥行きとカメラの内在/外在を空間基礎モデルにエンコードするGeoAdapterを提案する。
ゼロ初期化畳み込みを用いて、基礎モデルの表現空間を乱すことなく、幾何情報を段階的に注入する。
この設計は、複数の追加入力でもVGGTに匹敵する推論速度を維持しながら、無視可能なオーバーヘッドで安定した最適化を実現する。
さらに、確率的マルチモーダル融合レギュレータが提案され、トレーニング中にインスタンスごとのモダリティ部分集合をランダムにサンプリングする。
これにより、テスト中に任意の数のモダリティ入力が可能になり、補助的キューに過度に適合するのではなく、堅牢な空間表現の学習を促進する。
単眼/マルチビュー深度推定、マルチビューステレオ、カメラポーズ推定に関する総合的な実験により、OmniVGGTは補助入力で先行手法より優れ、RGBのみの入力でも最先端結果が得られることを示した。
実用性をさらに強調するため,我々はOmniVGTを視覚言語アクション(VLA)モデルに統合した。
OmniVGTによる拡張VLAモデルは、主流ベンチマークでバニラポイントクラウドベースのベースラインを上回るだけでなく、アクセス可能な補助入力を活用して、ロボットタスクにおける一貫した利得を達成する。
関連論文リスト
- Extrapolated Urban View Synthesis Benchmark [53.657271730352214]
光シミュレーターは視覚中心型自動運転車(AV)の訓練と評価に不可欠である
中心となるのはノベルビュー合成(英語版)(NVS)であり、これはAVの広範かつ連続的なポーズ分布に対応するために、様々な目に見えない視点を生成する能力である。
近年の3次元ガウス・スプラッティングのような放射場の発展は、リアルタイムなリアルタイムレンダリングを実現し、大規模ドライビングシーンのモデリングに広く利用されている。
自動運転車と都市ロボットシミュレーション技術の進歩を支援するために、データを公開します。
論文 参考訳(メタデータ) (2024-12-06T18:41:39Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。