論文の概要: Do What You Say: Steering Vision-Language-Action Models via Runtime Reasoning-Action Alignment Verification
- arxiv url: http://arxiv.org/abs/2510.16281v1
- Date: Sat, 18 Oct 2025 00:38:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.928431
- Title: Do What You Say: Steering Vision-Language-Action Models via Runtime Reasoning-Action Alignment Verification
- Title(参考訳): 言い換えれば:実行時推論-アクションアライメント検証による視覚-言語-アクションモデルのステアリング
- Authors: Yilin Wu, Anqi Li, Tucker Hermans, Fabio Ramos, Andrea Bajcsy, Claudia P'erez-D'Arpino,
- Abstract要約: Reasoning Vision Language Action (VLA)モデルは、低レベルアクションの前にステップバイステップのテキストプランを生成することで、ロボットによる命令追従を改善する。
しかし、正しいテキストプランであっても、生成したアクションは計画の意図した結果、特にアウト・オブ・ディストリビューションのシナリオを見逃す可能性がある。
我々は、この現象をCoT忠実性の欠如として定式化し、推論・アクションアライメントのためのトレーニング不要な実行時ポリシーステアリング手法を導入する。
- 参考スコア(独自算出の注目度): 17.948161564138033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning Vision Language Action (VLA) models improve robotic instruction-following by generating step-by-step textual plans before low-level actions, an approach inspired by Chain-of-Thought (CoT) reasoning in language models. Yet even with a correct textual plan, the generated actions can still miss the intended outcomes in the plan, especially in out-of-distribution (OOD) scenarios. We formalize this phenomenon as a lack of embodied CoT faithfulness, and introduce a training-free, runtime policy steering method for reasoning-action alignment. Given a reasoning VLA's intermediate textual plan, our framework samples multiple candidate action sequences from the same model, predicts their outcomes via simulation, and uses a pre-trained Vision-Language Model (VLM) to select the sequence whose outcome best aligns with the VLA's own textual plan. Only executing action sequences that align with the textual reasoning turns our base VLA's natural action diversity from a source of error into a strength, boosting robustness to semantic and visual OOD perturbations and enabling novel behavior composition without costly re-training. We also contribute a reasoning-annotated extension of LIBERO-100, environment variations tailored for OOD evaluation, and demonstrate up to 15% performance gain over prior work on behavior composition tasks and scales with compute and data diversity. Project Website at: https://yilin-wu98.github.io/steering-reasoning-vla/
- Abstract(参考訳): Reasoning Vision Language Action (VLA)モデルは、低レベルアクションの前にステップバイステップのテキストプランを生成することで、ロボットによる指示追従を改善する。
しかし、正しいテキストプランであっても、生成されたアクションは計画の意図した結果、特にアウト・オブ・ディストリビューション(OOD)のシナリオを見逃す可能性がある。
我々は、この現象をCoT忠実性の欠如として定式化し、推論・アクションアライメントのためのトレーニング不要な実行時ポリシーステアリング手法を導入する。
提案フレームワークは,VLAの中間テキスト計画から同一モデルから複数の候補アクションシーケンスを抽出し,シミュレーションにより結果を予測し,事前学習したビジョンランゲージモデル(VLM)を用いて,VLAのテキスト計画に最もよく適合するシーケンスを選択する。
テキスト推論に一致したアクションシーケンスのみを実行すると、ベースVLAの自然なアクションの多様性がエラーの原因から強みに変わり、意味的および視覚的OOD摂動への堅牢性を高め、コストのかかる再トレーニングなしに新しい行動構成を可能にする。
また, LIBERO-100の拡張, OOD評価に適した環境変動, 行動構成タスクや計算・データ多様性によるスケールの事前作業よりも15%パフォーマンス向上を示す。
プロジェクトウェブサイト https://yilin-wu98.github.io/steering-reasoning-vla/
関連論文リスト
- IntentionVLA: Generalizable and Efficient Embodied Intention Reasoning for Human-Robot Interaction [51.130510883952546]
Vision-Language-Action(VLA)モデルは、事前訓練された視覚言語モデル(VLM)を活用して、ロボット制御との認識を両立させる。
カリキュラム学習パラダイムと効率的な推論機構を備えたVLAフレームワークである textbfIntentionVLA を提案する。
提案手法はまず,意図推論,空間的接地,コンパクトな具体的推論を組み合わせ,慎重に設計した推論データを活用する。
論文 参考訳(メタデータ) (2025-10-09T04:49:46Z) - Do What? Teaching Vision-Language-Action Models to Reject the Impossible [53.40183895299108]
VLA(Vision-Language-Action)モデルは、さまざまなロボットタスクにおいて強力なパフォーマンスを示している。
Instruct-Verify-and-Act(IVA)を提案する。
実験の結果,IVAはベースラインよりも97.56%の精度で虚偽の前提検出精度を向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-22T10:54:33Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - VIPER: Visual Perception and Explainable Reasoning for Sequential Decision-Making [17.313485392764353]
VIPERはマルチモーダル命令ベースの計画のための新しいフレームワークである。
VLMベースの知覚とLLMベースの推論を統合する。
その結果、VIPERは最先端のビジュアル・インストラクション・ベース・プランナーよりも優れていた。
論文 参考訳(メタデータ) (2025-03-19T11:05:42Z) - HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model [54.64088247291416]
操作ポリシー設計の基本的な目的は、ロボットに人間の指示を理解し、シーンの手がかりを推論し、動的な環境で一般化されたアクションを実行することである。
近年の自己回帰的視覚言語行動(VLA)法は、視覚言語モデル(VLM)から常識推論能力を継承し、次の行動予測を行う。
拡散に基づく行動の連続的な性質と自己回帰の文脈的推論を吸収する統合フレームワークであるHybridVLAを紹介する。
論文 参考訳(メタデータ) (2025-03-13T17:59:52Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Few-shot Subgoal Planning with Language Models [58.11102061150875]
事前訓練された言語モデルにエンコードされた言語は、細粒度のサブゴール列を推測できることを示す。
サブゴナル・インスペクションを強く仮定する最近の手法とは対照的に,我々の実験では,詳細なサブゴラル・シーケンスを微調整せずに推論できる言語モデルが示されている。
論文 参考訳(メタデータ) (2022-05-28T01:03:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。