論文の概要: Do What? Teaching Vision-Language-Action Models to Reject the Impossible
- arxiv url: http://arxiv.org/abs/2508.16292v1
- Date: Fri, 22 Aug 2025 10:54:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.361928
- Title: Do What? Teaching Vision-Language-Action Models to Reject the Impossible
- Title(参考訳): ビジョン・ランゲージ・アクション・モデルによる非可視性排除の指導
- Authors: Wen-Han Hsieh, Elvis Hsieh, Dantong Niu, Trevor Darrell, Roei Herzig, David M. Chan,
- Abstract要約: VLA(Vision-Language-Action)モデルは、さまざまなロボットタスクにおいて強力なパフォーマンスを示している。
Instruct-Verify-and-Act(IVA)を提案する。
実験の結果,IVAはベースラインよりも97.56%の精度で虚偽の前提検出精度を向上させることがわかった。
- 参考スコア(独自算出の注目度): 53.40183895299108
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, Vision-Language-Action (VLA) models have demonstrated strong performance on a range of robotic tasks. These models rely on multimodal inputs, with language instructions playing a crucial role -- not only in predicting actions, but also in robustly interpreting user intent, even when the requests are impossible to fulfill. In this work, we investigate how VLAs can recognize, interpret, and respond to false-premise instructions: natural language commands that reference objects or conditions absent from the environment. We propose Instruct-Verify-and-Act (IVA), a unified framework that (i) detects when an instruction cannot be executed due to a false premise, (ii) engages in language-based clarification or correction, and (iii) grounds plausible alternatives in perception and action. Towards this end, we construct a large-scale instruction tuning setup with structured language prompts and train a VLA model capable of handling both accurate and erroneous requests. Our approach leverages a contextually augmented, semi-synthetic dataset containing paired positive and false-premise instructions, enabling robust detection and natural language correction. Our experiments show that IVA improves false premise detection accuracy by 97.56% over baselines, while increasing successful responses in false-premise scenarios by 50.78%.
- Abstract(参考訳): 近年、ビジョン・ランゲージ・アクション(VLA)モデルは、様々なロボットタスクにおいて強力な性能を示している。
これらのモデルはマルチモーダルな入力に依存しており、言語命令が重要な役割を果たす -- アクションを予測するだけでなく、要求が満たせない場合でも、ユーザの意図をしっかりと解釈する上でも。
本研究では,VLAが対象物や環境から外れた条件を参照する自然言語コマンドに対して,誤った前提命令を認識・解釈・応答する方法について検討する。
Instruct-Verify-and-Act(IVA)を提案する。
i) 偽の前提により命令が実行できないことを検出する。
(二)言語による明確化又は訂正に携わる、
(三)知覚及び行動のもっともらしい選択肢を根拠とする。
この目的のために,構造化言語プロンプトを用いた大規模命令チューニングシステムを構築し,正確な要求と誤要求の両方を処理可能なVLAモデルを訓練する。
提案手法は,2つの正と偽の前提命令を含む文脈的に拡張された半合成データセットを活用し,ロバストな検出と自然言語の補正を可能にする。
実験の結果,疑似前提検出精度はベースラインよりも97.56%向上し,疑似前提シナリオでは50.78%向上した。
関連論文リスト
- Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models [7.802379200026965]
認識状態の複雑さに基づいてVLA実行を動的にルーティングする適応型フレームワークを提案する。
我々のアプローチは、VLAの視覚言語バックボーンを、パラメトリックおよび非パラメトリック推定器のアンサンブルに潜伏埋め込みを投影することにより、アクティブな検出ツールに変換する。
論文 参考訳(メタデータ) (2026-03-05T13:14:41Z) - When Vision Overrides Language: Evaluating and Mitigating Counterfactual Failures in VLAs [31.92520697946991]
VLA(Vision-Language-Action Model)は、ロボット制御における言語命令の基盤となることを約束するが、実際には言語に忠実に従わないことが多い。
反ファクトの失敗は、最先端のVLAで発見されていないことが示される。
本稿では,単純な2分岐推論方式であるCAGを提案する。
論文 参考訳(メタデータ) (2026-02-19T18:59:20Z) - Scaling Verification Can Be More Effective than Scaling Policy Learning for Vision-Language-Action Alignment [58.93227458806748]
CoVer-VLAは、訓練された検証器を用いた階層的なテスト時間検証パイプラインである。
我々のフレームワークはビジョン・ランゲージ・モデルから多種多様な説明文をプリコンプリートする。
各命令に対して繰り返しアクション候補を生成し、検証器を使用して最適なハイレベルプロンプトと低レベルアクションチャンクを選択する。
論文 参考訳(メタデータ) (2026-02-12T18:59:59Z) - LangForce: Bayesian Decomposition of Vision Language Action Models via Latent Action Queries [30.732526921367835]
LangForceは、ベイズ分解による命令を強制する新しいフレームワークである。
我々は,新しいデータを必要としないLangForceの一般化を著しく改善することを示す。
論文 参考訳(メタデータ) (2026-01-21T17:15:22Z) - VIRO: Robust and Efficient Neuro-Symbolic Reasoning with Verification for Referring Expression Comprehension [51.76841625486355]
Referring Expression (REC) は、自然言語クエリに対応する画像領域をローカライズすることを目的としている。
最近のニューロシンボリックRECアプローチは、大規模言語モデル(LLM)と視覚言語モデル(VLM)を利用して構成推論を行う。
推論ステップ内に軽量な演算子レベルの検証器を組み込む,ニューロシンボリックなフレームワークであるVIROを紹介する。
論文 参考訳(メタデータ) (2026-01-19T07:21:19Z) - Seeing to Act, Prompting to Specify: A Bayesian Factorization of Vision Language Action Policy [59.44168425139687]
BayesVLA(ベイズVLA)は、前もってポリシーを視覚的アクションに分解し、ルック・トゥ・アクティベーションと言語条件付き可能性をサポートし、即時特定を可能にするベイズ因子化である。
実験は、既存の方法と比較して、目に見えない命令、オブジェクト、環境に対して優れた一般化を示す。
論文 参考訳(メタデータ) (2025-12-12T01:59:23Z) - Do What You Say: Steering Vision-Language-Action Models via Runtime Reasoning-Action Alignment Verification [17.948161564138033]
Reasoning Vision Language Action (VLA)モデルは、低レベルアクションの前にステップバイステップのテキストプランを生成することで、ロボットによる命令追従を改善する。
しかし、正しいテキストプランであっても、生成したアクションは計画の意図した結果、特にアウト・オブ・ディストリビューションのシナリオを見逃す可能性がある。
我々は、この現象をCoT忠実性の欠如として定式化し、推論・アクションアライメントのためのトレーニング不要な実行時ポリシーステアリング手法を導入する。
論文 参考訳(メタデータ) (2025-10-18T00:38:45Z) - FOSSIL: Harnessing Feedback on Suboptimal Samples for Data-Efficient Generalisation with Imitation Learning for Embodied Vision-and-Language Tasks [45.65159253753118]
この研究は、模倣学習で訓練されたエージェントが最適と準最適の両方から堅牢な表現を学習する方法を探求する。
入力シーケンスの一部として言語フィードバックの埋め込みをTransformerベースのポリシーに組み込む。
独自のBabyAI-XGen環境における視覚・言語タスクの具体化について,本手法を検証した。
論文 参考訳(メタデータ) (2025-10-13T11:55:21Z) - On the Loss of Context-awareness in General Instruction Fine-tuning [101.03941308894191]
教師付き微調整後の文脈認識の喪失について検討した。
性能低下は,会話指導の微調整中に学んだ異なる役割に対する偏見と関連していることがわかった。
一般命令微調整データセットから文脈依存例を識別する指標を提案する。
論文 参考訳(メタデータ) (2024-11-05T00:16:01Z) - Improving Instruction Following in Language Models through Proxy-Based Uncertainty Estimation [12.921225188504643]
本稿では,ペア応答の品質に対するロバストな不確実性推定を導入した不確実性認識リワードモデル(URM)を提案する。
実験結果から,提案したプロキシを言語モデルトレーニングに組み込むことによる大きなメリットが示された。
論文 参考訳(メタデータ) (2024-05-10T12:14:11Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z) - Interpretable Unified Language Checking [42.816372695828306]
本稿では,人間と機械生成言語の両方に対して,解釈可能で統一された言語チェック(UniLC)手法を提案する。
ファクトチェック, ステレオタイプ検出, ヘイトスピーチ検出タスクの組み合わせにより, LLM は高い性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-04-07T16:47:49Z) - Language Models Are Poor Learners of Directional Inference [17.807086499130488]
LMはそのような方向推定を学習する能力に制限がある。
既存のデータセットは方向テストに失敗する。
既存の LM-prompting モデルは、無能な指向性エンターテイメント学習者である。
論文 参考訳(メタデータ) (2022-10-10T13:43:16Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Language Models as Zero-Shot Planners: Extracting Actionable Knowledge
for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。
事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。
本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文 参考訳(メタデータ) (2022-01-18T18:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。