論文の概要: DETOUR: An Interactive Benchmark for Dual-Agent Search and Reasoning
- arxiv url: http://arxiv.org/abs/2602.00352v1
- Date: Fri, 30 Jan 2026 22:01:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.130959
- Title: DETOUR: An Interactive Benchmark for Dual-Agent Search and Reasoning
- Title(参考訳): DETOUR: デュアルエージェント検索と推論のためのインタラクティブベンチマーク
- Authors: Li Siyan, Darshan Deshpande, Anand Kannappan, Rebecca Qian,
- Abstract要約: 本稿では,1011のプロンプトを含むデュアルエージェント評価ベンチマークであるDETOUR(Obscure Under-specified Retrieval)を提案する。
以上の結果から,現在の最先端モデルではベンチマークに苦戦しており,すべてのモダリティで評価した場合の精度は36%に過ぎなかった。
- 参考スコア(独自算出の注目度): 2.0329381271887255
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: When recalling information in conversation, people often arrive at the recollection after multiple turns. However, existing benchmarks for evaluating agent capabilities in such tip-of-the-tongue search processes are restricted to single-turn settings. To more realistically simulate tip-of-the-tongue search, we introduce Dual-agent based Evaluation Through Obscure Under-specified Retrieval (DETOUR), a dual-agent evaluation benchmark containing 1,011 prompts. The benchmark design involves a Primary Agent, which is the subject of evaluation, tasked with identifying the recollected entity through querying a Memory Agent that is held consistent across evaluations. Our results indicate that current state-of-the-art models still struggle with our benchmark, only achieving 36% accuracy when evaluated on all modalities (text, image, audio, and video), highlighting the importance of enhancing capabilities in underspecified scenarios.
- Abstract(参考訳): 会話で情報を思い出すとき、人々は何度も回った後に回想に着くことが多い。
しかし, エージェント能力評価のための既存のベンチマークは, シングルターン設定に限定されている。
より現実的に検索の先取りをシミュレートするために,1011プロンプトを含むデュアルエージェント評価ベンチマークであるDETOUR(Dual-agent based Evaluation through Obscure Under-specified Retrieval)を導入する。
ベンチマーク設計では、評価対象であるプライマリエージェントが、評価間で一貫性のあるメモリエージェントをクエリすることで、再コンパイルされたエンティティを識別する作業を行う。
以上の結果から,現在の最先端モデルでは,すべてのモダリティ(テキスト,画像,音声,ビデオ)で評価した場合の精度は36%に過ぎず,未特定シナリオにおける機能強化の重要性を強調している。
関連論文リスト
- Issue-Oriented Agent-Based Framework for Automated Review Comment Generation [15.04868140672973]
RevAgentは、コードレビューコメントのための新しいエージェントベースのイシュー指向フレームワークである。
タスクは生成、識別、訓練の3段階に分けられる。
最先端のPLMとLMベースのベースラインをはるかに上回っている。
論文 参考訳(メタデータ) (2025-11-01T11:44:11Z) - Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。
モデル、足場、ベンチマークにまたがる3次元解析を行う。
私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文 参考訳(メタデータ) (2025-10-13T22:22:28Z) - Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-05T12:52:09Z) - RAVine: Reality-Aligned Evaluation for Agentic Search [7.4420114967110385]
RAVineは、検索を伴うエージェントLLMのための現実対応eValuationフレームワークである。
RAVineは、マルチポイントクエリと、ユーザの意図を反映した長文の回答をターゲットにしている。
RAVineを使って一連のモデルをベンチマークし、いくつかの洞察を得た。
論文 参考訳(メタデータ) (2025-07-22T16:08:12Z) - Establishing Best Practices for Building Rigorous Agentic Benchmarks [94.69724201080155]
多くのエージェントベンチマークがタスク設定や報酬設計に問題があることを示す。
このような問題は、エージェントのパフォーマンスを最大100%相対的に過小評価することにつながる可能性がある。
我々はベンチマーク構築経験から要約したガイドラインの集合であるAgentic Benchmark Checklist (ABC)を紹介した。
論文 参考訳(メタデータ) (2025-07-03T17:35:31Z) - JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - TestAgent: Automatic Benchmarking and Exploratory Interaction for Evaluating LLMs in Vertical Domains [19.492393243160244]
大規模言語モデル(LLM)は、高度に専門化された垂直ドメインにデプロイされることが多い。
既存の垂直領域の評価は、通常、静的な単一ターンデータセットの労働集約的な構築に依存している。
垂直領域における自動ベンチマークと探索動的評価のためのフレームワークであるTestAgentを提案する。
論文 参考訳(メタデータ) (2024-10-15T11:20:42Z) - Evaluating and Improving Factuality in Multimodal Abstractive
Summarization [91.46015013816083]
そこで我々は,CLIPBERTScoreを提案する。
ゼロショットにおけるこの2つの指標の単純な組み合わせは、文書要約のための既存の事実度指標よりも高い相関性が得られることを示す。
本分析は,CLIPBERTScoreとそのコンポーネントの信頼性と高い相関性を示す。
論文 参考訳(メタデータ) (2022-11-04T16:50:40Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。