論文の概要: Do What? Teaching Vision-Language-Action Models to Reject the Impossible
- arxiv url: http://arxiv.org/abs/2508.16292v1
- Date: Fri, 22 Aug 2025 10:54:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.361928
- Title: Do What? Teaching Vision-Language-Action Models to Reject the Impossible
- Title(参考訳): ビジョン・ランゲージ・アクション・モデルによる非可視性排除の指導
- Authors: Wen-Han Hsieh, Elvis Hsieh, Dantong Niu, Trevor Darrell, Roei Herzig, David M. Chan,
- Abstract要約: VLA(Vision-Language-Action)モデルは、さまざまなロボットタスクにおいて強力なパフォーマンスを示している。
Instruct-Verify-and-Act(IVA)を提案する。
実験の結果,IVAはベースラインよりも97.56%の精度で虚偽の前提検出精度を向上させることがわかった。
- 参考スコア(独自算出の注目度): 53.40183895299108
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, Vision-Language-Action (VLA) models have demonstrated strong performance on a range of robotic tasks. These models rely on multimodal inputs, with language instructions playing a crucial role -- not only in predicting actions, but also in robustly interpreting user intent, even when the requests are impossible to fulfill. In this work, we investigate how VLAs can recognize, interpret, and respond to false-premise instructions: natural language commands that reference objects or conditions absent from the environment. We propose Instruct-Verify-and-Act (IVA), a unified framework that (i) detects when an instruction cannot be executed due to a false premise, (ii) engages in language-based clarification or correction, and (iii) grounds plausible alternatives in perception and action. Towards this end, we construct a large-scale instruction tuning setup with structured language prompts and train a VLA model capable of handling both accurate and erroneous requests. Our approach leverages a contextually augmented, semi-synthetic dataset containing paired positive and false-premise instructions, enabling robust detection and natural language correction. Our experiments show that IVA improves false premise detection accuracy by 97.56% over baselines, while increasing successful responses in false-premise scenarios by 50.78%.
- Abstract(参考訳): 近年、ビジョン・ランゲージ・アクション(VLA)モデルは、様々なロボットタスクにおいて強力な性能を示している。
これらのモデルはマルチモーダルな入力に依存しており、言語命令が重要な役割を果たす -- アクションを予測するだけでなく、要求が満たせない場合でも、ユーザの意図をしっかりと解釈する上でも。
本研究では,VLAが対象物や環境から外れた条件を参照する自然言語コマンドに対して,誤った前提命令を認識・解釈・応答する方法について検討する。
Instruct-Verify-and-Act(IVA)を提案する。
i) 偽の前提により命令が実行できないことを検出する。
(二)言語による明確化又は訂正に携わる、
(三)知覚及び行動のもっともらしい選択肢を根拠とする。
この目的のために,構造化言語プロンプトを用いた大規模命令チューニングシステムを構築し,正確な要求と誤要求の両方を処理可能なVLAモデルを訓練する。
提案手法は,2つの正と偽の前提命令を含む文脈的に拡張された半合成データセットを活用し,ロバストな検出と自然言語の補正を可能にする。
実験の結果,疑似前提検出精度はベースラインよりも97.56%向上し,疑似前提シナリオでは50.78%向上した。
関連論文リスト
- On the Loss of Context-awareness in General Instruction Fine-tuning [101.03941308894191]
教師付き微調整後の文脈認識の喪失について検討した。
性能低下は,会話指導の微調整中に学んだ異なる役割に対する偏見と関連していることがわかった。
一般命令微調整データセットから文脈依存例を識別する指標を提案する。
論文 参考訳(メタデータ) (2024-11-05T00:16:01Z) - Improving Instruction Following in Language Models through Proxy-Based Uncertainty Estimation [12.921225188504643]
本稿では,ペア応答の品質に対するロバストな不確実性推定を導入した不確実性認識リワードモデル(URM)を提案する。
実験結果から,提案したプロキシを言語モデルトレーニングに組み込むことによる大きなメリットが示された。
論文 参考訳(メタデータ) (2024-05-10T12:14:11Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z) - Interpretable Unified Language Checking [42.816372695828306]
本稿では,人間と機械生成言語の両方に対して,解釈可能で統一された言語チェック(UniLC)手法を提案する。
ファクトチェック, ステレオタイプ検出, ヘイトスピーチ検出タスクの組み合わせにより, LLM は高い性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-04-07T16:47:49Z) - Language Models Are Poor Learners of Directional Inference [17.807086499130488]
LMはそのような方向推定を学習する能力に制限がある。
既存のデータセットは方向テストに失敗する。
既存の LM-prompting モデルは、無能な指向性エンターテイメント学習者である。
論文 参考訳(メタデータ) (2022-10-10T13:43:16Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Language Models as Zero-Shot Planners: Extracting Actionable Knowledge
for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。
事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。
本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文 参考訳(メタデータ) (2022-01-18T18:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。