論文の概要: Affordance Agent Harness: Verification-Gated Skill Orchestration
- arxiv url: http://arxiv.org/abs/2605.00663v2
- Date: Fri, 08 May 2026 08:29:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 16:31:22.52431
- Title: Affordance Agent Harness: Verification-Gated Skill Orchestration
- Title(参考訳): Affordance Agent Harness: Verification-Gated Skill Orchestration
- Authors: Haojian Huang, Jiahao Shi, Yinchuan Li, Yingcong Chen,
- Abstract要約: Affordance groundingは、オープンワールドのシーンでエージェントがどこでどのように対話すべきかを特定する必要がある。
本稿では,エビデンスストアとコストコントロールを備えたクローズドループランタイムであるAffordance Agent Harnessを提案する。
- 参考スコア(独自算出の注目度): 45.231685718099264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Affordance grounding requires identifying where and how an agent should interact in open-world scenes, where actionable regions are often small, occluded, reflective, and visually ambiguous. Recent systems therefore combine multiple skills (e.g., detection, segmentation, interaction-imagination), yet most orchestrate them with fixed pipelines that are poorly matched to per-instance difficulty, offer limited targeted recovery from intermediate errors, and fail to reuse experience from recurring objects. These failures expose a systems problem: test-time grounding must acquire the right evidence, decide whether that evidence is reliable enough to commit, and do so under bounded inference cost without access to labels. We propose Affordance Agent Harness, a closed-loop runtime that unifies heterogeneous skills with an evidence store and cost control, retrieves episodic memories to provide priors for recurring categories, and employs a Router to adaptively select and parameterize skills. An affordance-specific Verifier then gates commitments using self-consistency, cross-scale stability, and evidence sufficiency, triggering targeted retries before a final judge fuses accumulated evidence and trajectories into the prediction. Experiments on multiple affordance benchmarks and difficulty-controlled subsets show a stronger accuracy-cost Pareto frontier than fixed-pipeline baselines, improving grounding quality while reducing average skill calls and latency. Project page: https://tenplusgood.github.io/a-harness-page/.
- Abstract(参考訳): Affordance groundingは、アクション可能な領域が小さく、隠蔽され、反射され、視覚的に曖昧であるオープンワールドシーンにおいて、エージェントがどこでどのように相互作用すべきかを特定する必要がある。
したがって、最近のシステムは複数のスキル(例えば、検出、セグメンテーション、相互作用の想像)を組み合わせているが、ほとんどのシステムは、インスタンスごとの難易度にマッチしない固定パイプラインでそれらをオーケストレーションし、中間エラーから限定的なターゲットリカバリを提供し、繰り返し発生するオブジェクトからの経験を再利用できない。
テストタイムグラウンディングは正しい証拠を取得し、その証拠がコミットするのに十分な信頼性があるかどうかを判断し、ラベルにアクセスせずに境界付き推論コストで行う。
本研究では,不均一なスキルをエビデンスストアとコストコントロールと一体化した閉ループランタイムであるAffordance Agent Harnessを提案する。
次に、アベイランス固有の検証者は、自己整合性、クロススケールの安定性、証拠満足度を用いてコミットメントをゲートし、最終判事が蓄積した証拠と軌跡を予測に融合させる前に、目標とする再試行を誘発する。
複数の価格ベンチマークと難易度制御されたサブセットの実験は、固定パイプラインベースラインよりも精度の高いParetoフロンティアを示し、平均的なスキルコールとレイテンシを低減しながら、基礎品質を改善した。
プロジェクトページ:https://tenplusgood.github.io/a-harness-page/。
関連論文リスト
- IMPACT-CYCLE: A Contract-Based Multi-Agent System for Claim-Level Supervisory Correction of Long-Video Semantic Memory [73.22944697933603]
既存のパイプラインは不透明でエンドツーエンドの出力を生成し、検査の中間状態は公開しない。
IMPACT-Cycleは,マルチモーダル反復クレームレベルのメンテナンスとして,長時間ビデオ理解を再構築するマルチエージェントシステムである。
論文 参考訳(メタデータ) (2026-04-22T03:03:33Z) - Skill-RAG: Failure-State-Aware Retrieval Augmentation via Hidden-State Probing and Skill Routing [12.09179106162719]
本稿では,隠れ状態のプローバとプロンプトベースのスキルルータを結合した障害対応RAGフレームワークであるSkill-RAGを提案する。
実験により,Skill-RAGは多ターン検索後に持続するハードケースの精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2026-04-17T07:25:43Z) - FRESCO: Benchmarking and Optimizing Re-rankers for Evolving Semantic Conflict in Retrieval-Augmented Generation [73.22935457705057]
時間的動的文脈における再ランカ評価のためのベンチマークであるFRESCOを紹介する。
レクエンシ検索クエリと過去のウィキペディアのリビジョンを組み合わせることで、FRESCOは、セマンティックな関連性を維持しながら、リランカが事実として最新の証拠を優先順位付けできるかどうかをテストする。
我々の評価では、既存の再ランカ間で一貫した障害モードが明らかになっている。
論文 参考訳(メタデータ) (2026-04-14T17:04:25Z) - ConfSpec: Efficient Step-Level Speculative Reasoning via Confidence-Gated Verification [0.2578242050187029]
ステップレベルの投機的推論はこのコストを軽減することを目的としていますが、既存のアプローチは長年のトレードオフに直面しています。
我々は、このトレードオフを解決する信頼性の高いケースケード検証フレームワークConfSpecを提案する。
論文 参考訳(メタデータ) (2026-01-28T05:58:05Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - TrustLoRA: Low-Rank Adaptation for Failure Detection under Out-of-distribution Data [62.22804234013273]
本稿では,共変量および意味的シフトの両条件下での拒絶による分類を統一し,促進する,単純な故障検出フレームワークを提案する。
キーとなる洞察は、障害固有の信頼性知識を低ランクアダプタで分離し、統合することにより、障害検出能力を効果的かつ柔軟に向上できるということです。
論文 参考訳(メタデータ) (2025-04-20T09:20:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。