論文の概要: The Yes-Man Syndrome: Benchmarking Abstention in Embodied Robotic Agents
- arxiv url: http://arxiv.org/abs/2605.20544v1
- Date: Tue, 19 May 2026 22:32:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.402889
- Title: The Yes-Man Syndrome: Benchmarking Abstention in Embodied Robotic Agents
- Title(参考訳): Yes-Man症候群 : 身体的ロボットエージェントにおけるベンチマークの欠如
- Authors: Doguhan Yeke, Elif Su Temirel, Ananth Shreekumar, Brandon Lee, Dongyan Xu, Z Berkay Celik,
- Abstract要約: 視覚言語モデル(VLM)は、エンボディエージェントのプランナーとして使用される。
本稿では, ロボット工学の文脈において, 禁忌を分類するための分類法を提案する。
本稿では,画像に接地した禁忌指示を生成するためのフレームワークであるRoboAbstentionを紹介する。
- 参考スコア(独自算出の注目度): 14.695254264082273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) are used as high-level planners for embodied agents, translating natural language instructions and visual observations into action plans. While prior work has studied abstention in LLMs, existing benchmarks are largely text-only and do not capture the perceptual grounding and physical constraints inherent to embodied robotics environments. In such settings, abstention requires recognizing when instructions are ambiguous, physically infeasible, based on false premises, or otherwise unresolvable given the available sensory modalities and context. To address this gap, we introduce a taxonomy to categorize abstention in the context of embodied robotics and present RoboAbstention, a scalable and auditable framework for generating abstention instructions grounded in images gathered from five robotics datasets. RoboAbstention instantiates the taxonomy through a three-phase pipeline: (1) structured visual grounding, (2) deterministic constraint derivation, and (3) controlled instruction generation via category-specific templates. This enables the construction of a diverse dataset with verifiable abstention conditions. We evaluate several frontier VLMs and find that all models exhibit significant weaknesses in abstention, including those with advanced reasoning capabilities. The best-performing model, Gemini 2.5 Flash, abstains on only 39.0% of our 6,069 benchmark instructions, while the embodied planner Gemini Robotics ER 1.6 Preview abstains on just 16.5%. We further explore methods for improving abstention in VLM planners, such as defensive prompting and in-context learning, and find that these interventions substantially improve performance, reaching 93.6% abstention rate for Gemini Robotics ER 1.6 Preview and 88.6% for GPT 5.4 Mini, yet no approach fully solves the problem. We open-source RoboAbstention at https://purseclab.github.io/RoboAbstention/.
- Abstract(参考訳): 視覚言語モデル(VLM)は、エンボディエージェントの高レベルプランナーとして使われ、自然言語の指示や視覚的な観察をアクションプランに翻訳する。
以前の研究はLSMの禁忌について研究してきたが、既存のベンチマークは主にテキストのみであり、エンボディされたロボティクス環境に固有の知覚的接地や物理的制約を捉えていない。
このような設定では、禁忌は、命令が曖昧で、物理的に不可能である、偽の前提に基づいて、あるいは、利用可能な感覚のモダリティと文脈が考慮されて、解決不可能である、という認識を必要とする。
このギャップに対処するために,5つのロボティクスデータセットから収集した画像に基づいた禁忌指示を生成するためのスケーラブルで監査可能なフレームワークであるRoboAbstentionを紹介する。
RoboAbstentionは、(1)構造化された視覚的接地、(2)決定論的制約の導出、(3)カテゴリー固有のテンプレートによる制御された命令生成という3段階のパイプラインを通して分類をインスタンス化する。
これにより、検証可能な留意条件を持つ多様なデータセットの構築が可能になる。
我々は、いくつかのフロンティアVLMを評価し、全てのモデルが、高度な推論能力を持つモデルを含む、棄権の重大な弱点を示すことを発見した。
最高のパフォーマンスのモデルであるGemini 2.5 Flashは6,069のベンチマーク命令のうち39.0%しか棄権せず、具体化されたプランナーであるGemini Robotics ER 1.6 Previewは16.5%で棄権している。
さらに,防衛的プロンプトやコンテキスト内学習などのVLMプランナの禁忌性向上手法についても検討し,これらの介入によってパフォーマンスが大幅に向上し,Gemini Robotics ER 1.6 Previewの93.6%,GPT 5.4 Miniの88.6%に到達した。
われわれはRoboAbstentionをhttps://purseclab.github.io/RoboAbstention/.comでオープンソース化した。
関連論文リスト
- A Semantic Autonomy Framework for VLM-Integrated Indoor Mobile Robots: Hybrid Deterministic Reasoning and Cross-Robot Adaptive Memory [5.2851376150891864]
本稿では,セマンティックな屋内ナビゲーションのための6層参照フレームワークを提案する。
7ステップのパラメトリックリゾルバは、言語モデル、カメラ、GPUを呼び出すことなく0.1ミリ秒未満で88%の命令を処理する。
明示的なスコープ分類を持つ5カテゴリセマンティックメモリフレームワークは、クロスセッション学習とクロスロボット知識伝達を可能にする。
論文 参考訳(メタデータ) (2026-05-04T12:27:03Z) - From Passive Observer to Active Critic: Reinforcement Learning Elicits Process Reasoning for Robotic Manipulation [32.41847293364159]
PRIMO R1はビデオMLLMをアクティブな「批判」に変換する7Bフレームワーク
我々は、結果に基づく強化学習を活用して、進捗推定のための明示的な連鎖生成をインセンティブ化する。
67.0%の精度でRoboFailベンチマークの最先端のパフォーマンスを確立し、OpenAI o1のようなクローズドソースモデルを6.2%上回った。
論文 参考訳(メタデータ) (2026-03-16T17:53:28Z) - InternVLA-A1: Unifying Understanding, Generation and Action for Robotic Manipulation [77.07565723756119]
InternVLA-A1は動的予測機能を備えた視覚言語モデルである。
我々は、実世界のロボットデータ、合成シミュレーションデータ、人間のビデオなどを用いて、これらのモデルを異種データソース上で事前訓練する。
InternVLA-A1を実世界の12のロボットタスクとシミュレーションベンチマークで評価した。
論文 参考訳(メタデータ) (2026-01-05T18:54:29Z) - InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy [138.89177083578213]
空間接地とロボット制御のための統合フレームワークであるInternVLA-M1を紹介する。
InternVLA-M1は、(i)2.3M以上の空間的推論データに基づく空間的グラウンドトレーニングと(ii)空間的に誘導された後トレーニングという、2段階のパイプラインを使用する。
結果: InternVLA-M1 は SimplerEnv Google Robot で+14.6%、WidowX で+17%、LIBERO Franka で+4.3% で、空間誘導なしでその変種を上回った。
論文 参考訳(メタデータ) (2025-10-15T17:30:05Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics [67.11221574129937]
空間参照は、3D物理世界と相互作用するエンボディロボットの基本的な能力である。
本稿では,まず空間的理解を正確に行うことのできる3次元VLMであるRoboReferを提案する。
RoboReferは、強化微調整による一般化された多段階空間推論を推進している。
論文 参考訳(メタデータ) (2025-06-04T17:59:27Z) - From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation [35.79160868966466]
FSD(From Seeing to Doing)は空間関係推論により中間表現を生成する新しい視覚言語モデルである。
提案手法は,空間座標を視覚信号と整列する自己整合性機構と,階層的なデータパイプラインを併用する。
我々は、FSDがSimplerEnvで40.6%の成功率、実世界の8つのタスクで72%の成功率を達成したことを示し、最強のベースラインを30%上回った。
論文 参考訳(メタデータ) (2025-05-13T13:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。