論文の概要: Where Did It Go Wrong? Capability-Oriented Failure Attribution for Vision-and-Language Navigation Agents
- arxiv url: http://arxiv.org/abs/2604.25161v1
- Date: Tue, 28 Apr 2026 03:08:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.687229
- Title: Where Did It Go Wrong? Capability-Oriented Failure Attribution for Vision-and-Language Navigation Agents
- Title(参考訳): どこで間違えたのか? 視覚・言語ナビゲーションエージェントの能力指向障害属性
- Authors: Jianming Chen, Yawen Wang, Junjie Wang, Xiaofei Xie, Shoubin Li, Qing Wang, Fanjiang Xu,
- Abstract要約: 安全クリティカルなアプリケーションにおける身体的エージェントは、複数の相互依存能力に依存している。
障害検出と帰属を可能にする機能指向テスト手法を提案する。
- 参考スコア(独自算出の注目度): 24.279895675425077
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embodied agents in safety-critical applications such as Vision-Language Navigation (VLN) rely on multiple interdependent capabilities (e.g., perception, memory, planning, decision), making failures difficult to localize and attribute. Existing testing methods are largely system-level and provide limited insight into which capability deficiencies cause task failures. We propose a capability-oriented testing approach that enables failure detection and attribution by combining (1) adaptive test case generation via seed selection and mutation, (2) capability oracles for identifying capability-specific errors, and (3) a feedback mechanism that attributes failures to capabilities and guides further test generation. Experiments show that our method discovers more failure cases and more accurately pinpoints capability-level deficiencies than state-of-the-art baselines, providing more interpretable and actionable guidance for improving embodied agents.
- Abstract(参考訳): VLN(Vision-Language Navigation)のような安全クリティカルなアプリケーションのエージェントは、複数の相互依存機能(例えば、知覚、記憶、計画、決定)に依存しており、障害をローカライズしにくくする。
既存のテストメソッドは大部分がシステムレベルであり、どの能力不足がタスクの失敗を引き起こすかについての限られた洞察を提供する。
本稿では,(1)シード選択と突然変異による適応型テストケース生成,(2)機能固有のエラーを識別する能力オーラクル,(3)機能に障害を属性付け,さらなるテスト生成を導くフィードバック機構を組み合わせることで,障害検出と帰属を可能にする機能指向テスト手法を提案する。
実験により,本手法は,最先端のベースラインよりも故障事例の発見や,能力レベルの欠陥を正確に把握し,より解釈可能で実用的なインボダイドエージェント改善のためのガイダンスを提供する。
関連論文リスト
- Skill-RAG: Failure-State-Aware Retrieval Augmentation via Hidden-State Probing and Skill Routing [12.09179106162719]
本稿では,隠れ状態のプローバとプロンプトベースのスキルルータを結合した障害対応RAGフレームワークであるSkill-RAGを提案する。
実験により,Skill-RAGは多ターン検索後に持続するハードケースの精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2026-04-17T07:25:43Z) - Agentic Uncertainty Quantification [76.94013626702183]
本稿では,言語化された不確実性をアクティブな双方向制御信号に変換する統合されたデュアルプロセスエージェントUQ(AUQ)フレームワークを提案する。
システム1(Uncertainty-Aware Memory, UAM)とシステム2(Uncertainty-Aware Reflection, UAR)は、これらの説明を合理的な手段として利用し、必要な時にのみターゲットの推論時間解決をトリガーする。
論文 参考訳(メタデータ) (2026-01-22T07:16:26Z) - From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models [77.04403907729738]
このサーベイは、受動的診断基準からリアルタイムモデル動作を導くアクティブ制御信号への不確実性の進化をグラフ化する。
3つのフロンティアにまたがるアクティブ制御信号として不確実性がいかに活用されているかを示す。
この調査は、次世代のスケーラブルで信頼性があり、信頼できるAIを構築するためには、新しい不確実性のトレンドを習得することが不可欠である、と論じている。
論文 参考訳(メタデータ) (2026-01-22T06:21:31Z) - Feature-Aware Test Generation for Deep Learning Models [0.5368630420272898]
本研究では,視覚に基づくディープラーニング(DL)モデルのための機能認識型テスト生成フレームワークであるTectを紹介する。
潜在空間内で非絡み合ったセマンティック属性を摂動することで入力を生成する。
行動シフトにつながる特徴を特定し、セマンティック属性に視覚言語モデルを使用する。
論文 参考訳(メタデータ) (2026-01-20T15:41:06Z) - Hierarchical Vision Language Action Model Using Success and Failure Demonstrations [60.82332413442677]
階層型視覚-言語-アクションモデルであるVINEを導入し,高レベル推論を低レベル制御から分離する。
システム2は、2Dシーングラフの抽象化を介して、実現可能性誘導木探索を行う。
システム1はエージェントのコアスキルを変更することなく、低レベルのアクションを実行する。
論文 参考訳(メタデータ) (2025-12-03T15:58:38Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - TrustLoRA: Low-Rank Adaptation for Failure Detection under Out-of-distribution Data [62.22804234013273]
本稿では,共変量および意味的シフトの両条件下での拒絶による分類を統一し,促進する,単純な故障検出フレームワークを提案する。
キーとなる洞察は、障害固有の信頼性知識を低ランクアダプタで分離し、統合することにより、障害検出能力を効果的かつ柔軟に向上できるということです。
論文 参考訳(メタデータ) (2025-04-20T09:20:55Z) - FindTheFlaws: Annotated Errors for Detecting Flawed Reasoning and Scalable Oversight Research [0.6286531904189063]
AIの監督を拡大するアプローチには、議論、批判、証明者検証ゲームが含まれる。
FindTheFlawsは医学、数学、科学、コーディング、ロジバン語にまたがる5つの多様なデータセットからなる。
我々は、フロンティアモデルのクオリティ能力を評価し、スケーラブルな監視実験に活用できる幅広い性能を観察する。
論文 参考訳(メタデータ) (2025-03-29T06:38:30Z) - How Execution Features Relate to Failures: An Empirical Study and Diagnosis Approach [11.857060911501016]
障害のローカライゼーションは、障害の原因となる可能性のあるコード領域を特定することを目的としている。
従来のテクニックは主にステートメントの実行と失敗を関連付けています。
我々は17の実行特徴を分析し,その相関性を評価した。
論文 参考訳(メタデータ) (2025-02-25T22:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。