論文の概要: Clutter-Resistant Vision-Language-Action Models through Object-Centric and Geometry Grounding
- arxiv url: http://arxiv.org/abs/2512.22519v1
- Date: Sat, 27 Dec 2025 08:31:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.532438
- Title: Clutter-Resistant Vision-Language-Action Models through Object-Centric and Geometry Grounding
- Title(参考訳): 物体中心と幾何学的接地によるクレーター抵抗型視覚・言語・行動モデル
- Authors: Khoa Vo, Taisei Hanyu, Yuki Ikebe, Trong Thang Pham, Nhat Chung, Minh Nhat Vu, Duy Nguyen Ho Minh, Anh Nguyen, Anthony Gunderman, Chase Rainwater, Ngan Le,
- Abstract要約: 本稿では,行動推論から知覚的グラウンドを遠ざける枠組みであるOBEYED-VLAを提案する。
OBEYED-VLAは、タスク条件付き、オブジェクト中心、幾何学的認識の観察に入力を基礎付ける知覚モジュールを備えたビジョン・ランゲージ・アクションモデルを強化する。
現実世界のUR10eテーブルトップ設定では、OBEYED-VLAは強力なVLAベースラインよりもロバスト性を大幅に向上する。
- 参考スコア(独自算出の注目度): 14.290592746124835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent Vision-Language-Action (VLA) models have made impressive progress toward general-purpose robotic manipulation by post-training large Vision-Language Models (VLMs) for action prediction. Yet most VLAs entangle perception and control in a monolithic pipeline optimized purely for action, which can erode language-conditioned grounding. In our real-world tabletop tests, policies over-grasp when the target is absent, are distracted by clutter, and overfit to background appearance. To address these issues, we propose OBEYED-VLA (OBject-centric and gEometrY groundED VLA), a framework that explicitly disentangles perceptual grounding from action reasoning. Instead of operating directly on raw RGB, OBEYED-VLA augments VLAs with a perception module that grounds multi-view inputs into task-conditioned, object-centric, and geometry-aware observations. This module includes a VLM-based object-centric grounding stage that selects task-relevant object regions across camera views, along with a complementary geometric grounding stage that emphasizes the 3D structure of these objects over their appearance. The resulting grounded views are then fed to a pretrained VLA policy, which we fine-tune exclusively on single-object demonstrations collected without environmental clutter or non-target objects. On a real-world UR10e tabletop setup, OBEYED-VLA substantially improves robustness over strong VLA baselines across four challenging regimes and multiple difficulty levels: distractor objects, absent-target rejection, background appearance changes, and cluttered manipulation of unseen objects. Ablation studies confirm that both semantic grounding and geometry-aware grounding are critical to these gains. Overall, the results indicate that making perception an explicit, object-centric component is an effective way to strengthen and generalize VLA-based robotic manipulation.
- Abstract(参考訳): 近年のVision-Language-Action(VLA)モデルでは,行動予測のために大規模なVision-Language Models(VLM)を訓練後,汎用的なロボット操作に向けて顕著な進歩を遂げている。
しかし、ほとんどのVLAはモノリシックパイプラインの認識と制御を純粋に動作に最適化しており、言語条件の接地を省くことができる。
現実のテーブルトップテストでは、ターゲットが不在のときにポリシーが過度に曖昧になり、乱雑さに気を散らされ、バックグラウンドの外観に過度に適合する。
これらの問題に対処するため,行動推論から知覚的根拠を明示的に切り離す枠組みであるOBEYED-VLA(object-centric and gEometrY grounded VLA)を提案する。
OBEYED-VLAは、生のRGBを直接操作する代わりに、マルチビュー入力をタスク条件付き、オブジェクト中心、幾何学的に認識された観察に基盤を置く知覚モジュールでVLAを拡張する。
このモジュールは、カメラビュー全体にわたるタスク関連オブジェクト領域を選択するVLMベースのオブジェクト中心グラウンドステージと、これらのオブジェクトの外観上の3D構造を強調する補完的な幾何学的グラウンドステージを含む。
得られた基底ビューは、事前訓練されたVLAポリシーに反映され、環境クラッタや非ターゲットオブジェクトなしで収集された単一オブジェクトのデモのみに微調整される。
現実世界のUR10eテーブルトップ設定では、OBEYED-VLAは、4つの挑戦的なレシエーションと複数の難易度レベルにわたる強力なVLAベースラインに対するロバスト性を大幅に改善する。
アブレーション研究は、意味的接地と幾何学的認識的接地の両方がこれらの利得に重要であることを証明している。
全体としては、知覚を明示的、対象中心のコンポーネントにすることは、VLAベースのロボット操作を強化し、一般化する効果的な方法であることを示している。
関連論文リスト
- TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - I-Perceive: A Foundation Model for Active Perception with Language Instructions [41.67607728608853]
I-Perceiveは,自然言語命令に基づく能動的知覚の基礎モデルである。
I-Perceiveは、画像ベースのシーンコンテキストに基づいて、オープンな言語命令に従うカメラビューを予測する。
実験により、I-Perceiveは、生成したカメラビューの予測精度とインストラクションの両方において、最先端のVLMを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-28T11:38:56Z) - Universal Pose Pretraining for Generalizable Vision-Language-Action Policies [83.39008378156647]
既存のVision-Language-Action(VLA)モデルは、しばしば機能崩壊と訓練効率の低下に悩まされる。
本稿では,VLAトレーニングを3次元空間前駆体抽出のための事前学習フェーズに分離する,分離されたパラダイムであるPose-VLAを提案する。
我々のフレームワークは2段階の事前学習パイプラインに従い、ポーズと動きのアライメントによる基本的な空間接地を確立する。
論文 参考訳(メタデータ) (2026-02-23T11:00:08Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - Point What You Mean: Visually Grounded Instruction Policy [42.52502990975079]
Point-VLAは、言語命令を明示的な視覚的手がかりで拡張し、参照の曖昧さを解決するためのプラグアンドプレイポリシーである。
我々は,多種多様な実世界の参照タスクにおいてポイントVLAを評価し,テキストのみの命令VLAよりも一貫して強靭なパフォーマンスを観察する。
論文 参考訳(メタデータ) (2025-12-22T00:44:19Z) - The Perceptual Observatory Characterizing Robustness and Grounding in MLLMs [44.71703930770065]
The Perceptual Observatoryは、顔マッチングやテキスト・イン・ビジョンの理解機能など、MLLMを垂直方向に特徴付けるフレームワークである。
知覚観測所はリーダーボードの精度を超えて、MLLMが摂動下での知覚的接地と関係構造をどのように保存するかについての洞察を得る。
論文 参考訳(メタデータ) (2025-12-17T20:22:23Z) - ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver [35.25196177784228]
本稿では,暗黙的な基礎パラダイムを持つ再構成型VLAモデルReconVLAを提案する。
拡散変換器は、モデルの視覚出力に基づいて画像の視線領域を再構成する。
このプロセスにより、VLAモデルはきめ細かい表現を学習し、視覚的注意を正確に割り当てる。
論文 参考訳(メタデータ) (2025-08-14T04:20:19Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - Physically Grounded Vision-Language Models for Robotic Manipulation [59.143640049407104]
39.6Kのクラウドソースと417Kの自動物理概念アノテーションからなるオブジェクト中心のデータセットであるPhysObjectsを提案する。
本稿では,PhysObjects上での視覚言語モデルの微調整により,物理オブジェクト概念の理解が向上することを示す。
我々は、この物理的基盤を持つVLMを、大規模言語モデルに基づくロボットプランナーと対話的なフレームワークに組み込む。
論文 参考訳(メタデータ) (2023-09-05T20:21:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。