論文の概要: A Benchmark for Deep Information Synthesis
- arxiv url: http://arxiv.org/abs/2602.21143v1
- Date: Tue, 24 Feb 2026 17:43:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.869619
- Title: A Benchmark for Deep Information Synthesis
- Title(参考訳): 深層情報合成のためのベンチマーク
- Authors: Debjit Paul, Daniel Murphy, Milan Gritta, Ronald Cardenas, Victor Prokhorov, Lena Sophia Bolliger, Aysim Toker, Roy Miles, Andreea-Maria Oncescu, Jasivan Alex Sivakumar, Philipp Borchert, Ismail Elezi, Meiru Zhang, Ka Yiu Lee, Guchun Zhang, Jun Wang, Gerasimos Lampouras,
- Abstract要約: DEEPSYNTHは、大規模言語モデル(LLM)ベースのエージェントを現実的で時間を要する問題で評価するために設計された新しいベンチマークである。
7つのドメインにまたがる120のタスクと67カ国をカバーするデータソースを含んでいる。
DEEPSYNTHで評価すると、11の最先端のLDMとディープリサーチエージェントがLLM-judge測定で最大F1スコア8.97と17.5を達成する。
- 参考スコア(独自算出の注目度): 27.87976801124957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM)-based agents are increasingly used to solve complex tasks involving tool use, such as web browsing, code execution, and data analysis. However, current evaluation benchmarks do not adequately assess their ability to solve real-world tasks that require synthesizing information from multiple sources and inferring insights beyond simple fact retrieval. To address this, we introduce DEEPSYNTH, a novel benchmark designed to evaluate agents on realistic, time-consuming problems that combine information gathering, synthesis, and structured reasoning to produce insights. DEEPSYNTH contains 120 tasks collected across 7 domains and data sources covering 67 countries. DEEPSYNTH is constructed using a multi-stage data collection pipeline that requires annotators to collect official data sources, create hypotheses, perform manual analysis, and design tasks with verifiable answers. When evaluated on DEEPSYNTH, 11 state-of-the-art LLMs and deep research agents achieve a maximum F1 score of 8.97 and 17.5 on the LLM-judge metric, underscoring the difficulty of the benchmark. Our analysis reveals that current agents struggle with hallucinations and reasoning over large information spaces, highlighting DEEPSYNTH as a crucial benchmark for guiding future research.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのエージェントは、Webブラウジング、コード実行、データ分析といったツールの使用を含む複雑なタスクを解決するために、ますます使われています。
しかし、現在の評価ベンチマークでは、複数の情報源からの情報を合成し、単純な事実検索以上の洞察を推測する現実世界の課題を解決する能力は十分に評価されていない。
そこで我々は,情報収集,合成,構造化推論を組み合わせた現実的,時間を要する問題に対するエージェント評価のための新しいベンチマークであるDEEPSYNTHを紹介する。
DEEPSYNTHには7つのドメインにまたがる120のタスクと67カ国をカバーするデータソースが含まれている。
DEEPSYNTHは、アノテータが公式なデータソースを収集し、仮説を作成し、手動で分析し、検証可能な回答でタスクを設計する必要がある、多段階のデータ収集パイプラインを使用して構築されている。
DEEPSYNTHで評価すると、11の最先端のLDMとディープリサーチエージェントがLLM-judge測定値で最大F1スコア8.97と17.5を獲得し、ベンチマークの難しさを裏付ける。
我々の分析によると、現在のエージェントは幻覚と大きな情報空間の推論に苦労しており、DEPSYNTHを将来の研究を導くための重要なベンチマークとして強調している。
関連論文リスト
- GISA: A Benchmark for General Information-Seeking Assistant [102.30831921333755]
GISAは汎用情報検索アシスタントのベンチマークであり、373の人為的なクエリで構成されている。
深い推論と広範囲な情報集約を統合タスクに統合し、暗記に抵抗するために定期的に更新された回答を含むライブサブセットを含む。
主要なLCMと商用検索製品の実験では、最高のパフォーマンスモデルでさえ19.30%の正確なマッチスコアしか達成していないことが示されている。
論文 参考訳(メタデータ) (2026-02-09T11:44:15Z) - LongDA: Benchmarking LLM Agents for Long-Document Data Analysis [55.32211515932351]
LongDAは、長いドキュメントと複雑なデータをナビゲートする実際の設定をターゲットとしています。
LongTAは、ドキュメントアクセス、検索、コード実行を可能にするツール拡張されたエージェントフレームワークである。
実験の結果, 最先端モデルにおいても, かなりの性能差が認められた。
論文 参考訳(メタデータ) (2026-01-05T23:23:16Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - MIMDE: Exploring the Use of Synthetic vs Human Data for Evaluating Multi-Insight Multi-Document Extraction Tasks [0.0]
我々は,Multi-Insight Multi-Document extract (MIMDE)タスクのセットを定義する。
この課題は、調査回答の分析から医療記録の処理に至るまで、多くの実践的応用に欠かせないものである。
そこで本研究では, 合成データの可能性を検討するために, 補完的な人間と合成データセットを新たに導入する。
論文 参考訳(メタデータ) (2024-11-29T13:24:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。