論文の概要: Robotic Manipulation is Vision-to-Geometry Mapping ($f(v) \rightarrow G$): Vision-Geometry Backbones over Language and Video Models
- arxiv url: http://arxiv.org/abs/2604.12908v1
- Date: Tue, 14 Apr 2026 15:57:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.546412
- Title: Robotic Manipulation is Vision-to-Geometry Mapping ($f(v) \rightarrow G$): Vision-Geometry Backbones over Language and Video Models
- Title(参考訳): ロボットマニピュレーションは視覚と幾何学のマッピング(f(v) \rightarrow G$):言語とビデオモデルに対する視覚と幾何学のバックボーン
- Authors: Zijian Song, Qichang Li, Jiawei Zhou, Zhenlong Yuan, Tianshui Chen, Liang Lin, Guangrun Wang,
- Abstract要約: 一般化可能なロボット制御の基礎は、広く採用されている視覚言語やビデオモデルではなく、視覚幾何学のバックボーンであるべきだと我々は主張する。
本研究では,事前訓練されたネイティブ3次元表現上でのアクション生成を直接条件付きで行うビジョン・ジオメトリ・アクション・モデルを提案する。
具体的には、VGAは従来の言語やビデオのバックボーンを事前訓練された3Dワールドモデルに置き換え、シームレスな視覚と幾何学のマッピングを確立する。
- 参考スコア(独自算出の注目度): 65.05130114320734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: At its core, robotic manipulation is a problem of vision-to-geometry mapping ($f(v) \rightarrow G$). Physical actions are fundamentally defined by geometric properties like 3D positions and spatial relationships. Consequently, we argue that the foundation for generalizable robotic control should be a vision-geometry backbone, rather than the widely adopted vision-language or video models. Conventional VLA and video-predictive models rely on backbones pretrained on large-scale 2D image-text or temporal pixel data. While effective, their representations are largely shaped by semantic concepts or 2D priors, which do not intrinsically align with the precise 3D geometric nature required for physical manipulation. Driven by this insight, we propose the Vision-Geometry-Action (VGA) model, which directly conditions action generation on pretrained native 3D representations. Specifically, VGA replaces conventional language or video backbones with a pretrained 3D world model, establishing a seamless vision-to-geometry mapping that translates visual inputs directly into physical actions. To further enhance geometric consistency, we introduce a Progressive Volumetric Modulation module and adopt a joint training strategy. Extensive experiments validate the effectiveness of our approach. In simulation benchmarks, VGA outperforms top-tier VLA baselines including $π_{0.5}$ and GeoVLA, demonstrating its superiority in precise manipulation. More importantly, VGA exhibits remarkable zero-shot generalization to unseen viewpoints in real-world deployments, consistently outperforming $π_{0.5}$. These results highlight that operating on native 3D representations-rather than translating through language or 2D video priors-is a highly promising direction for achieving generalizable physical intelligence.
- Abstract(参考訳): ロボット操作は、視覚と幾何学のマッピング(f(v) \rightarrow G$)の問題である。
物理行動は3次元の位置や空間的関係のような幾何学的性質によって根本的に定義される。
したがって、一般化可能なロボット制御の基礎は、広く採用されている視覚言語やビデオモデルではなく、視覚幾何学のバックボーンであるべきだと論じる。
従来のVLAとビデオ予測モデルは、大規模な2D画像テキストまたは時間画素データに基づいて事前訓練されたバックボーンに依存している。
効果はあるものの、それらの表現は意味論的概念や2D先行概念によって大きく形作られており、物理的操作に必要な正確な3D幾何学的な性質とは本質的に一致しない。
この知見に基づいて,事前学習されたネイティブ3次元表現上でのアクション生成を直接条件付きで行うビジョン・ジオメトリ・アクション(VGA)モデルを提案する。
具体的には、VGAは従来の言語やビデオのバックボーンを事前訓練された3Dワールドモデルに置き換え、視覚入力を直接物理的なアクションに変換するシームレスな視覚と幾何学のマッピングを確立する。
幾何整合性をさらに向上するため,プログレッシブボリューム変調モジュールを導入し,共同トレーニング戦略を採用した。
大規模な実験により、我々のアプローチの有効性が検証された。
シミュレーションベンチマークでは、VGAは、$π_{0.5}$やGeoVLAといった最上位のVLAベースラインよりも優れており、正確な操作においてその優位性を示している。
さらに重要なことに、VGAは実世界の展開において目に見えない視点に顕著なゼロショットの一般化を示し、一貫して$π_{0.5}$を上回っている。
これらの結果は、言語や2Dビデオの事前翻訳よりも、ネイティブな3D表現の操作が、一般化可能な物理的知性を達成する上で非常に有望な方向であることを強調している。
関連論文リスト
- Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding [50.098085774845195]
本稿では,大規模生成モデルにおいて暗黙の空間的先行性を活用することで,パラダイムシフトを提案する。
GeneEGA-3D (Video Extracted Generative Awareness) は,事前学習した映像拡散モデルを潜在世界シミュレータとして再利用するプラグイン・アンド・プレイ・フレームワークである。
論文 参考訳(メタデータ) (2026-03-19T17:59:58Z) - Action-Geometry Prediction with 3D Geometric Prior for Bimanual Manipulation [53.09168514034483]
バイマン操作は3次元幾何学を推論し、動作中にどのように進化するかを予測し、滑らかで協調された動きを生成するポリシーを必要とする。
本稿では,事前学習した3次元幾何学的基礎モデルに基づいて,バイマン操作を直接構築するフレームワークを提案する。
我々の政策は、幾何学的認識の潜伏子、2次元意味的特徴、およびプロプレセプションを統一状態表現に融合させ、拡散モデルを用いて将来のアクションチャンクと、密度の高いポイントマップにデコードする未来の3次元潜伏子を共同で予測する。
論文 参考訳(メタデータ) (2026-02-27T08:54:20Z) - Spatial-Aware VLA Pretraining through Visual-Physical Alignment from Human Videos [39.05067965462225]
VLA(Vision-Language-Action)モデルでは、視覚認識と言語指導による政策学習を統合している。
現在、既存のほとんどのアプローチは3D物理環境でアクションを実行するために2Dビジュアルインプットに依存している。
本稿では,空間認識型VLA事前学習パラダイムを提案する。
3Dビジュアルエンコーダを組み込んだ2次元エンコーダアーキテクチャであるVIPA-VLAにより、このパラダイムをインスタンス化し、セマンティックビジュアル表現を3D認識機能で拡張する。
論文 参考訳(メタデータ) (2025-12-15T08:31:47Z) - GLaD: Geometric Latent Distillation for Vision-Language-Action Models [106.53332923530245]
GLaDは、知識蒸留による事前学習中に3次元の幾何学的先行を組み込んだ幾何学的認識型視覚・言語・アクション(VLA)フレームワークである。
GLaDは4つのLIBEROタスクスイートの平均成功率は94.1%で、同じ事前トレーニングデータを使用するUniVLA(92.5%)を上回っている。
論文 参考訳(メタデータ) (2025-12-10T13:07:27Z) - G$^2$VLM: Geometry Grounded Vision Language Model with Unified 3D Reconstruction and Spatial Reasoning [36.62798449863548]
VLM(Vision-Language Models)は、空間知能にはまだ堅牢性がない。
G$2$VLMは空間知能の2つの基本的な側面を橋渡しする視覚言語モデルである。
論文 参考訳(メタデータ) (2025-11-26T18:59:39Z) - Evo-0: Vision-Language-Action Model with Implicit Spatial Understanding [11.222744122842023]
本稿では、3次元幾何学的特徴を暗黙的にVision-Language-Action(VLA)モデルに組み込むプラグイン・アンド・プレイ・モジュールを提案する。
提案手法は,様々なシナリオにおける最先端VLAモデルの性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-07-01T04:05:47Z) - OG-VLA: 3D-Aware Vision Language Action Model via Orthographic Image Generation [68.11862866566817]
3D対応のポリシーは、精密なロボット操作タスクにおいて最先端のパフォーマンスを実現するが、見えない指示、シーン、オブジェクトへの一般化に苦慮している。
我々は,視覚言語行動モデル(VLA)の一般化強度と3D対応ポリシーの堅牢性を組み合わせた,新しいアーキテクチャと学習フレームワークであるOG-VLAを紹介する。
論文 参考訳(メタデータ) (2025-06-01T22:15:45Z) - Unsupervised Learning of Visual 3D Keypoints for Control [104.92063943162896]
高次元画像からの感覚運動制御ポリシーの学習は、基礎となる視覚表現の品質に大きく依存する。
本稿では,画像から3次元幾何学的構造を直接教師なしで学習するフレームワークを提案する。
これらの発見された3Dキーポイントは、時間と3D空間の両方で一貫した方法で、ロボットの関節と物体の動きを有意義にキャプチャする傾向がある。
論文 参考訳(メタデータ) (2021-06-14T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。