論文の概要: Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections
- arxiv url: http://arxiv.org/abs/2603.12180v1
- Date: Thu, 12 Mar 2026 17:11:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.244229
- Title: Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections
- Title(参考訳): ストラテジックナビゲーションか確率探索か : エージェントと人間が文書コレクションについてどのように考えるか
- Authors: Łukasz Borchmann, Jordy Van Landeghem, Michał Turski, Shreyansh Padarha, Ryan Othniel Kearns, Adam Mahdi, Niels Rogge, Clémentine Fourrier, Siwei Han, Huaxiu Yao, Artemis Llabrés, Yiming Xu, Dimosthenis Karatzas, Hao Zhang, Anupam Datta,
- Abstract要約: 我々は,800の異種PDF文書に基づいた2,250人の人間による質問のベンチマークであるMADQAを紹介する。
最適なエージェントは、人間の検索者を生の正確さで一致させることができるが、それらはほとんど異なる質問に成功し、弱い戦略計画の補足のためにブルートフォースサーチに依存している。
我々は、ブルートフォース検索からキャリブレーションされた効率的な推論への移行を支援するために、データセットと評価ハーネスをリリースする。
- 参考スコア(独自算出の注目度): 37.38277822936901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal agents offer a promising path to automating complex document-intensive workflows. Yet, a critical question remains: do these agents demonstrate genuine strategic reasoning, or merely stochastic trial-and-error search? To address this, we introduce MADQA, a benchmark of 2,250 human-authored questions grounded in 800 heterogeneous PDF documents. Guided by Classical Test Theory, we design it to maximize discriminative power across varying levels of agentic abilities. To evaluate agentic behaviour, we introduce a novel evaluation protocol measuring the accuracy-effort trade-off. Using this framework, we show that while the best agents can match human searchers in raw accuracy, they succeed on largely different questions and rely on brute-force search to compensate for weak strategic planning. They fail to close the nearly 20% gap to oracle performance, persisting in unproductive loops. We release the dataset and evaluation harness to help facilitate the transition from brute-force retrieval to calibrated, efficient reasoning.
- Abstract(参考訳): マルチモーダルエージェントは、複雑なドキュメント集約ワークフローを自動化するための有望なパスを提供する。
しかし、重要な疑問が残る:これらのエージェントは真の戦略的推論を示すのか、それとも単なる確率的試行錯誤検索なのか?
そこで本研究では,800件の異種PDF文書を根拠とした2250件の人間による質問のベンチマークであるMADQAを紹介する。
古典的テスト理論によって導かれ、エージェント能力の様々なレベルにまたがる差別力を最大化するように設計されている。
エージェントの動作を評価するために,精度・効率のトレードオフを測定する新しい評価プロトコルを提案する。
この枠組みを用いることで、最高のエージェントが人間の検索者を生の正確さでマッチングできる一方で、かなり異なる質問に成功し、弱い戦略計画の補足のためにブルートフォースサーチに頼っていることを示す。
オラクルのパフォーマンスと約20%のギャップを埋めることに失敗し、非生産的なループで持続する。
我々は、ブルートフォース検索からキャリブレーションされた効率的な推論への移行を支援するために、データセットと評価ハーネスをリリースする。
関連論文リスト
- Search More, Think Less: Rethinking Long-Horizon Agentic Search for Efficiency and Generalization [64.61432234404276]
emphSearch More, Think Less (SMTL) は、効率性と一般化の両方をターゲットとした長期エージェント検索のためのフレームワークである。
我々は、教師付き微調整と強化学習を用いてエンドツーエンドエージェントを訓練し、ベンチマーク全体にわたって、強固で頻繁なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-02-26T06:46:41Z) - ResearchGym: Evaluating Language Model Agents on Real-World AI Research [48.46915933681714]
我々は、エンドツーエンドの研究においてAIエージェントを評価するためのベンチマークおよび実行環境であるResearchGymを紹介する。
これを実現するために,ICML,ICLR,ACLの5つの口頭およびスポットライト論文を再利用した。
GPT-5を動力とするエージェントの制御評価において、我々は鋭い能力-信頼性ギャップを観察する。
論文 参考訳(メタデータ) (2026-02-16T19:00:03Z) - Repurposing Synthetic Data for Fine-grained Search Agent Supervision [81.95597592711688]
LLMベースの検索エージェントは、エンティティ中心の合成データに基づいてますます訓練されている。
一般的なトレーニングメソッドは、このリッチなエンティティ情報を破棄し、代わりにスパースで結果に基づく報酬に依存します。
E-GRPO(Entity-Aware Group Relative Policy Optimization)は、高密度なエンティティ認識報酬関数を定式化する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-10-28T17:50:40Z) - Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。
モデル、足場、ベンチマークにまたがる3次元解析を行う。
私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文 参考訳(メタデータ) (2025-10-13T22:22:28Z) - Deep Reinforcement Learning Agents are not even close to Human Intelligence [25.836584192349907]
深部強化学習(RL)エージェントは、様々なタスクにおいて印象的な結果を得るが、ゼロショット適応能力は欠如している。
我々は、アーケード学習環境のタスクバリエーションのセットであるHackAtariを紹介する。
人間とは対照的に、RLエージェントは、トレーニングタスクのより単純なバージョンに対して、体系的に大きなパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2025-05-27T20:21:46Z) - Conveying Autonomous Robot Capabilities through Contrasting Behaviour
Summaries [8.413049356622201]
比較行動要約を効率的に生成する適応探索法を提案する。
この結果から,適応探索により,人間がより優れたエージェントを正確に選択できる情報コントラストのシナリオを効果的に特定できることが示唆された。
論文 参考訳(メタデータ) (2023-04-01T18:20:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。