論文の概要: Steerable Vision-Language-Action Policies for Embodied Reasoning and Hierarchical Control
- arxiv url: http://arxiv.org/abs/2602.13193v2
- Date: Mon, 02 Mar 2026 23:14:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.445232
- Title: Steerable Vision-Language-Action Policies for Embodied Reasoning and Hierarchical Control
- Title(参考訳): 身体的推論と階層制御のためのステアブルビジョン・ランゲージ・アクション・ポリシー
- Authors: William Chen, Jagdeep Singh Bhatia, Catherine Glossop, Nikhil Mathihalli, Ria Doshi, Andy Tang, Danny Driess, Karl Pertsch, Sergey Levine,
- Abstract要約: Steerable Policies: サブタスクやモーション,接地したピクセル座標など,さまざまな抽象化レベルで,リッチな合成コマンドに基づいてトレーニングされたVLA。
この利点は、学習した高レベルな具体的推論器と既製のVLMの両方を使って、コンテキスト内学習を通じてコマンドの抽象化を推論することで実証する。
- 参考スコア(独自算出の注目度): 46.169163284648384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretrained vision-language models (VLMs) can make semantic and visual inferences across diverse settings, providing valuable common-sense priors for robotic control. However, effectively grounding this knowledge in robot behaviors remains an open challenge. Prior methods often employ a hierarchical approach where VLMs reason over high-level commands to be executed by separate low-level policies, e.g., vision-language-action models (VLAs). The interface between VLMs and VLAs is usually natural language task instructions, which fundamentally limits how much VLM reasoning can steer low-level behavior. We thus introduce Steerable Policies: VLAs trained on rich synthetic commands at various levels of abstraction, like subtasks, motions, and grounded pixel coordinates. By improving low-level controllability, Steerable Policies can unlock pretrained knowledge in VLMs, enabling improved task generalization. We demonstrate this benefit by controlling our Steerable Policies with both a learned high-level embodied reasoner and an off-the-shelf VLM prompted to reason over command abstractions via in-context learning. Across extensive real-world manipulation experiments, these two novel methods outperform prior embodied reasoning VLAs and VLM-based hierarchical baselines, including on challenging generalization and long-horizon tasks. Website: steerable-policies.github.io
- Abstract(参考訳): 事前訓練された視覚言語モデル(VLM)は、さまざまな設定にまたがって意味論的および視覚的推論を作成でき、ロボット制御に有用な常識的事前情報を提供する。
しかし、この知識をロボット行動に効果的に根ざすことは、依然としてオープンな課題である。
従来の手法では、VLMが高レベルなコマンドに対して異なる低レベルなポリシー(例えば、視覚言語アクションモデル(VLA))によって実行されることを理由とする階層的なアプローチを用いることが多い。
VLMとVLAのインターフェイスは通常自然言語のタスク命令であり、VLMの推論が低レベルな振る舞いをいかに抑えるかは基本的に制限される。
VLAは、サブタスク、モーション、接地されたピクセル座標など、様々なレベルの抽象レベルで、リッチな合成コマンドに基づいて訓練される。
低レベルの制御性を改善することで、ステアブル・ポリシーはVLMの事前訓練された知識を解放し、タスクの一般化を改善することができる。
この利点は、学習した高レベルな具体的推論器と既製のVLMの両方を使って、コンテキスト内学習を通じてコマンドの抽象化を推論することで実証する。
大規模な実世界の操作実験を通じて、これらの2つの新しい手法は、挑戦的な一般化と長期水平タスクを含む、VLAとVLMに基づく階層的ベースラインの事前の具体的推論よりも優れている。
公式サイト:steerable-policies.github.io
関連論文リスト
- SteerVLA: Steering Vision-Language-Action Models in Long-Tail Driving Scenarios [104.10555123175055]
自律運転における基本的な課題は、ロングテールイベントに対する高レベルなセマンティック推論と、ロバストな運転のための低レベルでリアクティブな制御の統合である。
本稿では,視覚-言語-行動駆動ポリシーを操る細粒度言語命令を生成するSteerVLAを提案する。
我々は、SteerVLAを挑戦的なクローズドループベンチマークで評価し、運転スコア全体の4.77ポイント、ロングテールサブセットの8.04ポイントで最先端の手法より優れています。
論文 参考訳(メタデータ) (2026-02-09T09:54:02Z) - From Code to Action: Hierarchical Learning of Diffusion-VLM Policies [8.0703783175731]
ロボット操作の模倣学習はしばしば、限られた一般化とデータ不足に悩まされる。
本稿では,コード生成型視覚言語モデル(VLM)を活用した階層型フレームワークを提案する。
この設計は、解釈可能なポリシーの分解を可能にし、フラットなポリシーと比較して一般化を改善し、高レベルの計画と低レベルの制御を別々に評価できるようにする。
論文 参考訳(メタデータ) (2025-09-29T15:22:18Z) - From Intention to Execution: Probing the Generalization Boundaries of Vision-Language-Action Models [5.660635614478238]
VLA(Vision-Language-Action)モデルは、汎用的で汎用的なロボットポリシーを作成することを約束する。
従来の模倣学習ベンチマークは言語命令の欠如のため不適当である。
言語命令,視覚,オブジェクトにまたがる10のサブカテゴリにまたがる50のシミュレーションベースのタスクの統合スイートを導入する。
論文 参考訳(メタデータ) (2025-06-11T16:52:18Z) - From Foresight to Forethought: VLM-In-the-Loop Policy Steering via Latent Alignment [11.799979691988902]
FOREWARNは、Vision Language Modelsのランタイムポリシーステアリングの可能性を解き放つ新しいフレームワークである。
予見のために、我々は潜在世界モデルを利用して、多様な低レベルアクションプランが与えられた将来の潜在国家を想像する。
例えば、VLMをこれらの予測潜在状態と整合させて、そのネイティブ表現におけるアクションの結果を推論する。
論文 参考訳(メタデータ) (2025-02-03T21:11:02Z) - Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。
視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。
ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文 参考訳(メタデータ) (2024-07-11T17:31:01Z) - From LLMs to Actions: Latent Codes as Bridges in Hierarchical Robot Control [58.72492647570062]
我々は,制限を克服する代替アーキテクチャとして,Learningable Latent Codes as Bridges (LCB)を導入した。
methodoutperforms baselines that leverage pure language as the interface layer on tasks that requires reasoning and multi-step behaviors。
論文 参考訳(メタデータ) (2024-05-08T04:14:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。