論文の概要: OmniVGGT: Omni-Modality Driven Visual Geometry Grounded Transformer
- arxiv url: http://arxiv.org/abs/2511.10560v2
- Date: Fri, 14 Nov 2025 04:11:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 14:38:02.29082
- Title: OmniVGGT: Omni-Modality Driven Visual Geometry Grounded Transformer
- Title(参考訳): OmniVGT:Omni-Modality-Driven Visual Geometry Grounded Transformer
- Authors: Haosong Peng, Hao Li, Yalun Dai, Yushi Lan, Yihang Luo, Tianyu Qi, Zhengshen Zhang, Yufeng Zhan, Junfei Zhang, Wenchao Xu, Ziwei Liu,
- Abstract要約: 一般的な3Dファウンデーションモデルは、多様なビジョンタスクの統合のトレンドを導い始めている。
OmniVGTは、トレーニングと推論の両方において、任意の数の補助モダリティを効果的に活用できる新しいフレームワークである。
- 参考スコア(独自算出の注目度): 48.16706802780516
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: General 3D foundation models have started to lead the trend of unifying diverse vision tasks, yet most assume RGB-only inputs and ignore readily available geometric cues (e.g., camera intrinsics, poses, and depth maps). To address this issue, we introduce OmniVGGT, a novel framework that can effectively benefit from an arbitrary number of auxiliary geometric modalities during both training and inference. In our framework, a GeoAdapter is proposed to encode depth and camera intrinsics/extrinsics into a spatial foundation model. It employs zero-initialized convolutions to progressively inject geometric information without disrupting the foundation model's representation space. This design ensures stable optimization with negligible overhead, maintaining inference speed comparable to VGGT even with multiple additional inputs. Additionally, a stochastic multimodal fusion regimen is proposed, which randomly samples modality subsets per instance during training. This enables an arbitrary number of modality inputs during testing and promotes learning robust spatial representations instead of overfitting to auxiliary cues. Comprehensive experiments on monocular/multi-view depth estimation, multi-view stereo, and camera pose estimation demonstrate that OmniVGGT outperforms prior methods with auxiliary inputs and achieves state-of-the-art results even with RGB-only input. To further highlight its practical utility, we integrated OmniVGGT into vision-language-action (VLA) models. The enhanced VLA model by OmniVGGT not only outperforms the vanilla point-cloud-based baseline on mainstream benchmarks, but also effectively leverages accessible auxiliary inputs to achieve consistent gains on robotic tasks.
- Abstract(参考訳): 一般的な3Dファウンデーションモデルは、多様な視覚タスクを統一する傾向を導いてきたが、ほとんどの場合、RGBのみの入力を仮定し、容易に利用できる幾何学的手がかり(例えば、カメラの内在、ポーズ、奥行きマップ)を無視している。
この問題に対処するために、トレーニングと推論の双方において、任意の数の補助的な幾何学的モダリティを効果的に活用できる新しいフレームワークであるOmniVGTを紹介する。
本フレームワークでは,奥行きとカメラの内在/外在を空間基礎モデルにエンコードするGeoAdapterを提案する。
ゼロ初期化畳み込みを用いて、基礎モデルの表現空間を乱すことなく、幾何情報を段階的に注入する。
この設計は、複数の追加入力でもVGGTに匹敵する推論速度を維持しながら、無視可能なオーバーヘッドで安定した最適化を実現する。
さらに、確率的マルチモーダル融合レギュレータが提案され、トレーニング中にインスタンスごとのモダリティ部分集合をランダムにサンプリングする。
これにより、テスト中に任意の数のモダリティ入力が可能になり、補助的キューに過度に適合するのではなく、堅牢な空間表現の学習を促進する。
単眼/マルチビュー深度推定、マルチビューステレオ、カメラポーズ推定に関する総合的な実験により、OmniVGGTは補助入力で先行手法より優れ、RGBのみの入力でも最先端結果が得られることを示した。
実用性をさらに強調するため,我々はOmniVGTを視覚言語アクション(VLA)モデルに統合した。
OmniVGTによる拡張VLAモデルは、主流ベンチマークでバニラポイントクラウドベースのベースラインを上回るだけでなく、アクセス可能な補助入力を活用して、ロボットタスクにおける一貫した利得を達成する。
関連論文リスト
- Universal Pose Pretraining for Generalizable Vision-Language-Action Policies [83.39008378156647]
既存のVision-Language-Action(VLA)モデルは、しばしば機能崩壊と訓練効率の低下に悩まされる。
本稿では,VLAトレーニングを3次元空間前駆体抽出のための事前学習フェーズに分離する,分離されたパラダイムであるPose-VLAを提案する。
我々のフレームワークは2段階の事前学習パイプラインに従い、ポーズと動きのアライメントによる基本的な空間接地を確立する。
論文 参考訳(メタデータ) (2026-02-23T11:00:08Z) - Reloc-VGGT: Visual Re-localization with Geometry Grounded Transformer [40.778996326009185]
初期核融合機構による多視点空間統合を行う最初のビジュアルローカライゼーションフレームワークを提案する。
我々のフレームワークはVGGTのバックボーン上に構築されており、多視点3D形状を符号化している。
本研究では,グローバルアテンションの2次複雑さを回避し,計算コストを削減する新しいスパースマスクアテンション戦略を提案する。
論文 参考訳(メタデータ) (2025-12-26T06:12:17Z) - SpaceMind: Camera-Guided Modality Fusion for Spatial Reasoning in Vision-Language Models [13.88629412035865]
大規模視覚言語モデル(VLM)は、強いマルチモーダル理解を示すが、3次元空間的推論に苦慮している。
本研究では,RGB入力のみから空間推論を行うために設計されたマルチモーダルな大規模言語モデルであるSpaceMindを提案する。
論文 参考訳(メタデータ) (2025-11-28T11:04:21Z) - Evo-0: Vision-Language-Action Model with Implicit Spatial Understanding [11.222744122842023]
本稿では、3次元幾何学的特徴を暗黙的にVision-Language-Action(VLA)モデルに組み込むプラグイン・アンド・プレイ・モジュールを提案する。
提案手法は,様々なシナリオにおける最先端VLAモデルの性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-07-01T04:05:47Z) - AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [49.81255045696323]
補助メタデータ駆動型赤外小型ターゲット検出器(AuxDet)について述べる。
AuxDetはメタデータセマンティクスと視覚的特徴を統合し、各サンプルに対する適応表現学習を導く。
挑戦的なWideIRSTD-Fullベンチマークの実験は、AuxDetが一貫して最先端のメソッドより優れていることを示した。
論文 参考訳(メタデータ) (2025-05-21T07:02:05Z) - Extrapolated Urban View Synthesis Benchmark [53.657271730352214]
光シミュレーターは視覚中心型自動運転車(AV)の訓練と評価に不可欠である
中心となるのはノベルビュー合成(英語版)(NVS)であり、これはAVの広範かつ連続的なポーズ分布に対応するために、様々な目に見えない視点を生成する能力である。
近年の3次元ガウス・スプラッティングのような放射場の発展は、リアルタイムなリアルタイムレンダリングを実現し、大規模ドライビングシーンのモデリングに広く利用されている。
自動運転車と都市ロボットシミュレーション技術の進歩を支援するために、データを公開します。
論文 参考訳(メタデータ) (2024-12-06T18:41:39Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Unifying Voxel-based Representation with Transformer for 3D Object
Detection [143.91910747605107]
マルチモード3Dオブジェクト検出のための統一フレームワークUVTRを提案する。
提案手法は, ボクセル空間におけるマルチモーダリティ表現を統一し, 高精度かつ堅牢な単一モード・クロスモーダリティ3D検出を実現することを目的とする。
UVTRは、69.7%、55.1%、71.1%のNDSで、それぞれLiDAR、カメラ、マルチモダリティの入力を行う。
論文 参考訳(メタデータ) (2022-06-01T17:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。