論文の概要: Done, But Not Sure: Disentangling World Completion from Self-Termination in Embodied Agents
- arxiv url: http://arxiv.org/abs/2605.08747v2
- Date: Tue, 12 May 2026 01:49:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 18:21:06.927458
- Title: Done, But Not Sure: Disentangling World Completion from Self-Termination in Embodied Agents
- Title(参考訳): 独身エージェントの自傷行為から世界完結を遠ざける(動画あり)
- Authors: Ying Chen, Rui Jiang, Lihuang Fang, Mingxu Wang, Zhifeng Gu, Lei Yi, Jie Chen,
- Abstract要約: VIGILは、端末のコミットメントを独立して測定できる評価フレームワークである。
VIGILのデフォルトプロトコルでは、エージェントはエゴセントリックなRGBのみを観察し、アクション・サクセス・シグナルを受信せず、各エピソードは、隠された世界状態に対して決定論的にチェックされたセマンティック・レポートで終了しなければならない。
これにより、ワールドステートコンプリート(W)とベンチマーク成功(B)の2つのスコアが得られます。
- 参考スコア(独自算出の注目度): 11.233308795768465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard embodied evaluations do not independently score whether an agent correctly commits to task completion at episode closure, a capacity we call terminal commitment. Behaviorally distinct failures--never completing the task, completing it but failing to stop, and reporting success without sufficient evidence--collapse into the same benchmark failure. We introduce VIGIL, an evaluation framework that makes terminal commitment independently measurable. Under VIGIL's default protocol, agents observe only egocentric RGB, receive no action-success signals, and must end each episode with a semantic report checked deterministically against hidden world state. This yields two separate scores: world-state completion (W) and benchmark success (B), where B additionally requires a correct terminal report. This decoupling makes four outcome categories distinguishable: missed execution, post-attainment drift, unsupported commitment, and verified success. Across 20 models on 1,000 frozen episodes, systems with comparable W differ by up to 19.7 pp in B: one model converts achieved states into correct reports, while another with near-identical execution drifts past the goal without closing. An action-feedback intervention further tests the separation: execution-oriented signals improve W broadly, yet commitment failures persist in models that do not already ground terminal reports in the achieved state. VIGIL provides a protocol that makes terminal commitment independently visible and scorable.
- Abstract(参考訳): 標準実施評価は、エージェントがエピソード終了時にタスク完了を正しくコミットするかどうかを独立してスコア付けしない。
動作的に異なる失敗 — タスクを完了し、完了せず、停止せず、十分な証拠のない成功を報告する — は、同じベンチマーク失敗に崩壊する。
本稿では,端末のコミットメントを独立に測定可能な評価フレームワークであるVIGILを紹介する。
VIGILのデフォルトプロトコルでは、エージェントはエゴセントリックなRGBのみを観察し、アクション・サクセス・シグナルを受信せず、各エピソードは、隠された世界状態に対して決定論的にチェックされたセマンティック・レポートで終了しなければならない。
これにより、世界状態完了(W)とベンチマーク成功(B)の2つのスコアが得られる。
この分離は、実行の欠如、完了後のドリフト、約束の約束、そして検証された成功の4つの結果カテゴリを区別できる。
1つのモデルでは達成した状態を正しいレポートに変換し、もう1つのモデルでは終了せずにほぼ同一の実行がゴールを越えてドリフトする。
アクションフィードバックの介入は分離をさらにテストする: 実行指向の信号はWを広範囲に改善するが、完了した状態の端末レポートを根拠にしていないモデルではコミットメントの失敗は継続する。
VIGILは、端末のコミットメントを独立して可視化し、装飾可能にするプロトコルを提供する。
関連論文リスト
- Ambig-DS: A Benchmark for Task-Framing Ambiguity in Data-Science Agents [2.3488056916440856]
既存のベンチマークでは、エージェントがタスクが不明確かどうかを無視して、パイプラインが動作しているかどうかをスコア付けしている。
本稿では,予測対象曖昧さと評価対象曖昧さの2つの診断スイートであるAmbig-DSを紹介する。
すべてのタスクに対して、元の完全に指定されたバージョンと、コントロールされた編集によって生成されるあいまいなバリエーションをペアにします。
論文 参考訳(メタデータ) (2026-05-10T18:34:12Z) - Reconstructive Authority Model: Runtime Execution Validity Under Partial Observability [0.4929694290403903]
認証された状態の予測は必要であるが、実行の有効性には十分でないことを示す。
本稿では,リコンストラクティブ・オーソリティ・モデル(RAM)を紹介する。
特権不足を伴うハイブリッドRAM+Attestationアーキテクチャを提案する。
論文 参考訳(メタデータ) (2026-04-24T13:19:27Z) - Pando: Do Interpretability Methods Work When Models Won't Explain Themselves? [53.07826484214082]
モデル・オーガニゼーションのベンチマークであるPandoを紹介します。
Pandoは、ラベル付きクエリ-レスポンスペアから、ホールドアウトモデル決定を予測する。
説明が忠実であれば、ブラックボックスの引用はすべてのホワイトボックスメソッドに一致するか、超える。
論文 参考訳(メタデータ) (2026-04-13T06:42:24Z) - Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry [82.93104394404781]
汎用世界モデルは、スケーラブルなポリシー評価、最適化、計画を約束します。
本稿では,世界モデルによる予測誤りと自己改善を識別するフレームワークであるWorld Action Verifier(WAV)を提案する。
論文 参考訳(メタデータ) (2026-04-02T12:48:36Z) - Toward Faithful Segmentation Attribution via Benchmarking and Dual-Evidence Fusion [4.726028690278432]
本稿では、Pascal VOC上で、介入に基づく忠実度、ターゲット外リーク、実行時、再現可能なベンチマークを提案する。
本稿では、地域レベルの干渉信号と証拠を融合させる軽量な補正であるDual-Evidence Attribution(DEA)を提案する。
論文 参考訳(メタデータ) (2026-03-23T22:52:00Z) - vla-eval: A Unified Evaluation Harness for Vision-Language-Action Models [58.633451339058986]
VLAモデルは一般的に、各モデルリポジトリによって独立して維持されるベンチマークスクリプト毎に評価される。
本稿では、ベンチマーク実行からモデル推論を分離するオープンソースの評価ハーネスであるvla evalを紹介する。
完全な評価では、vla eval serveとvla eval runの2つのコマンドしか必要としない。
論文 参考訳(メタデータ) (2026-03-14T14:38:53Z) - Capable but Unreliable: Canonical Path Deviation as a Causal Mechanism of Agent Failure in Long-Horizon Tasks [0.38991526486631006]
信頼性障害の多くは、タスクの潜在解構造からのドリフトに起因するものであり、能力障害ではない、と我々は主張する。
我々は、モデル能力と作業難易度を維持できる自然実験を用いて、これを因果的に確立する。
論文 参考訳(メタデータ) (2026-02-22T02:37:57Z) - OpenSec: Measuring Incident Response Agent Calibration Under Adversarial Evidence [0.0]
本稿では,防衛インシデント対応エージェントの評価を行う,二重制御強化学習環境であるOpenSecを紹介する。
静的な能力ベンチマークとは異なり、OpenSecは敵のエビデンスの下で世界状態を変える封じ込めアクションをスコアする。
GPT-5.2、Gemini 3、DeepSeekは100%のエピソードを90-97%の偽陽性率で封じ込めている。
論文 参考訳(メタデータ) (2026-01-28T22:12:54Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。