論文の概要: Understanding the Impact of Geometric Foundation Models on Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2605.24642v1
- Date: Sat, 23 May 2026 16:18:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.289831
- Title: Understanding the Impact of Geometric Foundation Models on Vision-Language-Action Models
- Title(参考訳): 幾何学的基礎モデルが視覚・言語・行動モデルに及ぼす影響を理解する
- Authors: Yurou Yang, Muyuan Lin, Roberto Martin-Martin, Martin Labrie, Shreekant Gayaka, Cheng-Hao Kuo, Luca Carlone,
- Abstract要約: 近年,視覚-言語-行動モデル (VLA) と幾何学的基礎モデル (GFM) の交差する3次元再構成における新たな機会を探っている。
i) 現代のVLAが、(ii) 幾何学的理解をVLAに注入するのに最適なアーキテクチャと、(iii) 幾何学的VLAに影響を与える他の設計選択の影響から始めるのに十分な幾何学的理解を持っているかどうかは不明である。
本稿では,VLA (GR00T-N1.5) と GFM (VGGT) を選択的に選択するための厳密な実験分析を行った。
- 参考スコア(独自算出の注目度): 16.739408045405906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work explores new opportunities at the intersection of vision-language-action models (VLAs) and geometric foundation models (GFMs) for 3D reconstruction, such as VGGT. While the resulting geometric VLAs often show improved performance, it remains unclear (i) if modern VLAs already have sufficient geometric understanding to start with, (ii) what is the best architecture to inject geometric understanding into a VLA, and (iii) what is the effect of other design choices that affect geometric VLAs. In this paper we provide a rigorous experimental analysis to shed light on these questions, for a specific choice of VLA (GR00T-N1.5) and GFM (VGGT). Our first contribution is to formalize prior work's intuition that current VLAs lack geometric understanding, by providing a rigorous analysis based on linear probing. The analysis quantifies, for the first time, the "geometric gap" between VLAs and GFMs. Our second contribution is to identify and compare different strategies to bridge GFMs with VLAs. We implement three different architectures, which differ in the way they inject geometry in the VLA, while keeping low-level implementation details as similar as possible, to ensure a fair comparison. Finally, we analyze the impact of non-architectural choices (e.g., training data, number of cameras, reconstruction quality) on the performance of the geometric VLAs.
- Abstract(参考訳): 近年,視覚言語行動モデル (VLA) と幾何学的基礎モデル (GFM) の交わる新たな機会を探っている。
結果として得られる幾何学的VLAは、しばしば改善された性能を示すが、まだ不明である。
(i) 現代のVLAが最初から十分な幾何学的理解を持っている場合。
(二)VLAに幾何学的理解を注入するのに最適な建築方法、及び
(iii)幾何学的VLAに影響を与える他の設計選択の影響は何か。
本稿では,VLA (GR00T-N1.5) と GFM (VGGT) を選択的に選択するための厳密な実験分析を行った。
我々の最初の貢献は、線形探索に基づく厳密な分析を提供することにより、現在のVLAには幾何学的理解が欠けているという先行研究の直観を形式化することである。
この分析は、VLAとGFMの間の「幾何学的ギャップ」を初めて定量化する。
第2の貢献は、GFMとVLAを橋渡しするさまざまな戦略を特定し比較することです。
我々は3つの異なるアーキテクチャを実装し、VLAで幾何学を注入する方法が異なるが、低レベルの実装の詳細は可能な限り類似しており、公正な比較を保証する。
最後に,非構造的選択(例えば,トレーニングデータ,カメラ数,復元品質)が幾何学的VLAの性能に与える影響を分析する。
関連論文リスト
- Last-Layer-Centric Feature Recombination: Unleashing 3D Geometric Knowledge in DINOv3 for Monocular Depth Estimation [4.654162664140336]
近年の視覚基礎モデル (VFM) は, 高精度化と高密度予測の一般化を実現している。
本研究では,DINOv3の階層構造解析を行い,非一様に3次元情報を分散していることを明らかにする。
そこで我々は, 幾何学的表現性を高めるためにLFRモジュールを導入する。
論文 参考訳(メタデータ) (2026-04-29T09:11:36Z) - Modeling Cross-vision Synergy for Unified Large Vision Model [130.37489011094036]
PolyVは、アーキテクチャレベルとトレーニングレベルの両方で、クロスビジョンのシナジーを実現する統一された大型ビジョンモデルである。
PolyVは既存のモデルを一貫して上回り、バックボーンの10%以上の平均的な改善を実現している。
論文 参考訳(メタデータ) (2026-03-03T22:44:43Z) - VLANeXt: Recipes for Building Strong VLA Models [95.4552662536287]
VLA(Vision-Language-Action Model)が登場し、強力な視覚と言語理解を政策学習に活用した。
多くのグループが独自のVLAモデルを提案しているが、トレーニングプロトコルと評価設定の不整合により、どの設計選択が本当に重要なのかを特定することは困難である。
コミュニティが発見を再現するための共通プラットフォームとして機能する、統一的で使いやすいフレームワークをリリースします。
論文 参考訳(メタデータ) (2026-02-20T09:26:17Z) - On Geometric Understanding and Learned Data Priors in VGGT [38.8968170074396]
Visual Geometry Grounded Transformer (VGGT) は、カメラ形状とシーン構造を単一のフィードフォワードパスで推論する3次元基礎モデルである。
本稿では,VGGTの内部機構を体系的に解析し,幾何学的理解が表現の中に現れるかどうかを明らかにする。
論文 参考訳(メタデータ) (2025-12-12T12:11:57Z) - GLaD: Geometric Latent Distillation for Vision-Language-Action Models [106.53332923530245]
GLaDは、知識蒸留による事前学習中に3次元の幾何学的先行を組み込んだ幾何学的認識型視覚・言語・アクション(VLA)フレームワークである。
GLaDは4つのLIBEROタスクスイートの平均成功率は94.1%で、同じ事前トレーニングデータを使用するUniVLA(92.5%)を上回っている。
論文 参考訳(メタデータ) (2025-12-10T13:07:27Z) - Aligning Large Language Models and Geometric Deep Models for Protein Representation [57.59506688299817]
遅延表現アライメントは、異なるモダリティからの埋め込みを共有空間にマッピングするために使用され、しばしば大きな言語モデル(LLM)の埋め込み空間と一致している。
プリミティブなタンパク質中心の大規模言語モデル (MLLM) が登場したが、それらは表現の至る所で最適なアライメントの実践に関する根本的な理解が欠如しているアプローチに大きく依存している。
本研究では,タンパク質領域におけるLLMと幾何学的深部モデル(GDM)のマルチモーダル表現のアライメントについて検討する。
本研究は, モデルおよびタンパク質の観点からのアライメント要因について検討し, 現行アライメント手法の課題を特定し, アライメントプロセスを改善するための戦略を提案する。
論文 参考訳(メタデータ) (2024-11-08T04:15:08Z) - GFNet: Geometric Flow Network for 3D Point Cloud Semantic Segmentation [91.15865862160088]
本稿では,異なるビュー間の幾何対応性を検討するための幾何フローネットワーク (GFNet) を提案する。
具体的には、異なる視点にまたがって補完情報を双方向に整列し、伝播する新しい幾何フローモジュール(GFM)を考案する。
論文 参考訳(メタデータ) (2022-07-06T11:48:08Z) - Few-shot Learning as Cluster-induced Voronoi Diagrams: A Geometric
Approach [12.382578792491747]
CIVD(Cluster-induced Voronoi Diagram)は、数ショット学習の精度と堅牢性を改善する。
CIVDベースのワークフローにより、mini-ImageNet、CUB、hered-ImagenNetデータセット上で、最先端の新たな結果が得られます。
論文 参考訳(メタデータ) (2022-02-05T02:52:06Z) - Self-supervised Geometric Perception [96.89966337518854]
自己教師付き幾何知覚(self-supervised geometric perception)は、基底幾何モデルラベルなしで対応マッチングのための特徴記述子を学ぶためのフレームワークである。
また,SGPは,地上トラスラベルを用いて訓練した教師付きオークルよりも同等か優れる最先端性能を達成できることを示す。
論文 参考訳(メタデータ) (2021-03-04T15:34:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。