論文の概要: Guide, Think, Act: Interactive Embodied Reasoning in Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2605.13632v1
- Date: Wed, 13 May 2026 14:58:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.12038
- Title: Guide, Think, Act: Interactive Embodied Reasoning in Vision-Language-Action Models
- Title(参考訳): Guide, Think, Act: Interactive Embodied Reasoning in Vision-Language-Action Models
- Authors: Yiran Ling, Qing Lian, Jinghang Li, Qing Jiang, Tianming Zhang, Xiaoke Jiang, Chuanxiu Liu, Jie Liu, Lei Zhang,
- Abstract要約: GTA-VLA(Guide, Think, Act)はインタラクティブなビジョンランゲージ・アクション・フレームワークである。
ユーザがロボットポリシーを明示的な視覚的手がかりでガイドできるようにすることで、空間的に操作可能な具体的推論を可能にする。
- 参考スコア(独自算出の注目度): 15.486973209713954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose GTA-VLA(Guide, Think, Act), an interactive Vision-Language-Action (VLA) framework that enables spatially steerable embodied reasoning by allowing users to guide robot policies with explicit visual cues. Existing VLA models learn a direct "Sense-to-Act" mapping from multimodal observations to robot actions. While effective within the training distribution, such tightly coupled policies are brittle under out-of-domain (OOD) shifts and difficult to correct when failures occur. Although recent embodied Chain-of-Thought (CoT) approaches expose intermediate reasoning, they still lack a mechanism for incorporating human spatial guidance, limiting their ability to resolve visual ambiguities or recover from mistakes. To address this gap, our framework allows users to optionally guide the policy with spatial priors, such as affordance points, boxes, and traces, which the subsequent reasoning process can directly condition on. Based on these inputs, the model generates a unified spatial-visual Chain-of-Thought that integrates external guidance with internal task planning, aligning human visual intent with autonomous decision-making. For practical deployment, we further couple the reasoning module with a lightweight reactive action head for efficient action execution. Extensive experiments demonstrate the effectiveness of our approach. On the in-domain SimplerEnv WidowX benchmark, our framework achieves a state-of-the-art 81.2% success rate. Under OOD visual shifts and spatial ambiguities, a single visual interaction substantially improves task success over existing methods, highlighting the value of interactive reasoning for failure recovery in embodied control. Details of the project can be found here: https://signalispupupu.github.io/GTA-VLA_ProjPage/
- Abstract(参考訳): 本稿では,視覚的手口でロボットのポリシーをガイドすることで,空間的に操作可能な具体的推論を可能にする対話型視覚・言語・アクション(VLA)フレームワークであるGTA-VLA(Guide, Think, Act)を提案する。
既存のVLAモデルは、マルチモーダル観測からロボット行動への直接的な「センス・トゥ・アクト」マッピングを学習する。
トレーニングディストリビューション内では有効だが、そのような密結合されたポリシは、ドメイン外シフト(OOD)の下では不安定であり、障害が発生した時に修正が難しい。
CoT(Chain-of-Thought)を具体化した最近のアプローチは、中間的推論を公開しているが、人間の空間的誘導を取り入れ、視覚的曖昧さを解消したり、ミスから回復する能力を制限するメカニズムは依然として欠如している。
このギャップに対処するため、当社のフレームワークでは、利用者が空間的優先事項(例えば、アベイランスポイント、ボックス、トレースなど)でポリシーを任意にガイドすることができる。
これらの入力に基づいて、モデルは、外部ガイダンスと内部タスク計画を統合し、人間の視覚意図を自律的な意思決定と整合させる、統合された空間視覚連鎖を生成する。
実用的な展開のために、より効率的なアクション実行のための軽量なリアクティブアクションヘッドと推論モジュールを結合する。
大規模な実験は、我々のアプローチの有効性を実証する。
ドメイン内のSimplerEnv WidowXベンチマークでは、我々のフレームワークは81.2%の成功率を達成した。
OODの視覚的シフトと空間的曖昧さの下では、単一の視覚的相互作用は既存の手法よりもタスクの成功を大幅に改善し、具体的制御における障害回復のための対話的推論の価値を強調している。
プロジェクトの詳細は、https://signalispupu.github.io/GTA-VLA_ProjPage/を参照してください。
関連論文リスト
- From Pixels to Tokens: A Systematic Study of Latent Action Supervision for Vision-Language-Action Models [14.109112325287208]
本研究は,2つの視点から潜時行動監視に関する研究である。 (i) 画像に基づく潜時行動による軌道の規則化, (ii) 行動に基づく潜時行動による目標空間の統一である。
以上の結果より, 動作に基づく潜在動作は複雑な運動調整において優れるが, 定式化タスク対応は明らかである。
論文 参考訳(メタデータ) (2026-05-06T09:27:07Z) - \textsc{NaVIDA}: Vision-Language Navigation with Inverse Dynamics Augmentation [50.027425808733994]
textscNaVIDAは、ポリシー学習とアクショングラウンドの視覚力学と適応実行を結合した統合VLNフレームワークである。
textscNaVIDAは、チャンクベースの逆ダイナミクスによるトレーニングを強化し、視覚変化と対応するアクションの因果関係を学習する。
実験の結果,textscNaVIDAはパラメータが少ない最先端の手法に比べてナビゲーション性能が優れていることがわかった。
論文 参考訳(メタデータ) (2026-01-26T06:16:17Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - ACoT-VLA: Action Chain-of-Thought for Vision-Language-Action Models [15.5794433640853]
Action Chain-of-Thought (ACoT) は、推論プロセス自体が粗いアクション意図の構造化シーケンスとして定式化されるパラダイムである。
我々は2つの補完的要素: Explicit Action Reasoner (EAR) と Implicit Action Reasoner (IAR) を紹介する。
論文 参考訳(メタデータ) (2026-01-16T16:17:06Z) - Vision-Language-Action Models for Autonomous Driving: Past, Present, and Future [125.92052530850425]
VLA(Vision-Language-Action)フレームワークは、認識と言語に基づく意思決定を統合する。
VLAフレームワークは、より解釈可能で、一般化可能で、人間に準拠した運転ポリシーへの道筋を提供する。
この研究は、人間と互換性のある自動運転システムを構築するための一貫性のある基盤を確立することを目的としている。
論文 参考訳(メタデータ) (2025-12-18T16:57:44Z) - IntentionVLA: Generalizable and Efficient Embodied Intention Reasoning for Human-Robot Interaction [51.130510883952546]
Vision-Language-Action(VLA)モデルは、事前訓練された視覚言語モデル(VLM)を活用して、ロボット制御との認識を両立させる。
カリキュラム学習パラダイムと効率的な推論機構を備えたVLAフレームワークである textbfIntentionVLA を提案する。
提案手法はまず,意図推論,空間的接地,コンパクトな具体的推論を組み合わせ,慎重に設計した推論データを活用する。
論文 参考訳(メタデータ) (2025-10-09T04:49:46Z) - Mechanistic interpretability for steering vision-language-action models [0.23371356738437823]
VLA(Vision-Language-Action)モデルは、一般のエンボディエージェントを実現するための有望な道である。
本稿では,VLAを内部表現で解釈し,操作するための最初のフレームワークを紹介する。
我々は、微調整、報酬信号、環境相互作用を伴わずに、リアルタイムに行動を調整する汎用的なアクティベーションステアリング手法を提案する。
論文 参考訳(メタデータ) (2025-08-30T03:01:57Z) - Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。
我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文 参考訳(メタデータ) (2025-06-11T17:41:50Z) - ManipLVM-R1: Reinforcement Learning for Reasoning in Embodied Manipulation with Large Vision-Language Models [26.955482205849282]
LVLM(Large Vision-Language Models)は近年,視覚をシーン認識や言語に活用してロボット操作を進化させた。
本稿では,従来の指導をRLVR(Verifiable Rewards)を用いた強化学習に置き換える新しい強化学習フレームワークであるManipLVM-R1を提案する。
論文 参考訳(メタデータ) (2025-05-22T10:57:07Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。