Fugu-MT 論文翻訳(概要): A Benchmark for Deep Information Synthesis

論文の概要: A Benchmark for Deep Information Synthesis

arxiv url: http://arxiv.org/abs/2602.21143v1
Date: Tue, 24 Feb 2026 17:43:32 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.869619
Title: A Benchmark for Deep Information Synthesis
Title（参考訳）: 深層情報合成のためのベンチマーク
Authors: Debjit Paul, Daniel Murphy, Milan Gritta, Ronald Cardenas, Victor Prokhorov, Lena Sophia Bolliger, Aysim Toker, Roy Miles, Andreea-Maria Oncescu, Jasivan Alex Sivakumar, Philipp Borchert, Ismail Elezi, Meiru Zhang, Ka Yiu Lee, Guchun Zhang, Jun Wang, Gerasimos Lampouras,
Abstract要約: DEEPSYNTHは、大規模言語モデル(LLM)ベースのエージェントを現実的で時間を要する問題で評価するために設計された新しいベンチマークである。 7つのドメインにまたがる120のタスクと67カ国をカバーするデータソースを含んでいる。 DEEPSYNTHで評価すると、11の最先端のLDMとディープリサーチエージェントがLLM-judge測定で最大F1スコア8.97と17.5を達成する。
参考スコア（独自算出の注目度）: 27.87976801124957
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language model (LLM)-based agents are increasingly used to solve complex tasks involving tool use, such as web browsing, code execution, and data analysis. However, current evaluation benchmarks do not adequately assess their ability to solve real-world tasks that require synthesizing information from multiple sources and inferring insights beyond simple fact retrieval. To address this, we introduce DEEPSYNTH, a novel benchmark designed to evaluate agents on realistic, time-consuming problems that combine information gathering, synthesis, and structured reasoning to produce insights. DEEPSYNTH contains 120 tasks collected across 7 domains and data sources covering 67 countries. DEEPSYNTH is constructed using a multi-stage data collection pipeline that requires annotators to collect official data sources, create hypotheses, perform manual analysis, and design tasks with verifiable answers. When evaluated on DEEPSYNTH, 11 state-of-the-art LLMs and deep research agents achieve a maximum F1 score of 8.97 and 17.5 on the LLM-judge metric, underscoring the difficulty of the benchmark. Our analysis reveals that current agents struggle with hallucinations and reasoning over large information spaces, highlighting DEEPSYNTH as a crucial benchmark for guiding future research.
Abstract（参考訳）: 大規模言語モデル(LLM)ベースのエージェントは、Webブラウジング、コード実行、データ分析といったツールの使用を含む複雑なタスクを解決するために、ますます使われています。しかし、現在の評価ベンチマークでは、複数の情報源からの情報を合成し、単純な事実検索以上の洞察を推測する現実世界の課題を解決する能力は十分に評価されていない。そこで我々は,情報収集,合成,構造化推論を組み合わせた現実的,時間を要する問題に対するエージェント評価のための新しいベンチマークであるDEEPSYNTHを紹介する。 DEEPSYNTHには7つのドメインにまたがる120のタスクと67カ国をカバーするデータソースが含まれている。 DEEPSYNTHは、アノテータが公式なデータソースを収集し、仮説を作成し、手動で分析し、検証可能な回答でタスクを設計する必要がある、多段階のデータ収集パイプラインを使用して構築されている。 DEEPSYNTHで評価すると、11の最先端のLDMとディープリサーチエージェントがLLM-judge測定値で最大F1スコア8.97と17.5を獲得し、ベンチマークの難しさを裏付ける。我々の分析によると、現在のエージェントは幻覚と大きな情報空間の推論に苦労しており、DEPSYNTHを将来の研究を導くための重要なベンチマークとして強調している。

関連論文リスト

GISA: A Benchmark for General Information-Seeking Assistant [102.30831921333755]
GISAは汎用情報検索アシスタントのベンチマークであり、373の人為的なクエリで構成されている。深い推論と広範囲な情報集約を統合タスクに統合し、暗記に抵抗するために定期的に更新された回答を含むライブサブセットを含む。主要なLCMと商用検索製品の実験では、最高のパフォーマンスモデルでさえ19.30%の正確なマッチスコアしか達成していないことが示されている。
論文参考訳（メタデータ） (2026-02-09T11:44:15Z)
LongDA: Benchmarking LLM Agents for Long-Document Data Analysis [55.32211515932351]
LongDAは、長いドキュメントと複雑なデータをナビゲートする実際の設定をターゲットとしています。 LongTAは、ドキュメントアクセス、検索、コード実行を可能にするツール拡張されたエージェントフレームワークである。実験の結果, 最先端モデルにおいても, かなりの性能差が認められた。
論文参考訳（メタデータ） (2026-01-05T23:23:16Z)
ConDABench: Interactive Evaluation of Language Models for Data Analysis [10.177407781044279]
本稿では,会話データ分析(ConDA)ベンチマークを作成し,外部ツールを評価するフレームワークであるConDABenchを紹介する。ベンチは、(a)パブリックデータセットから得られた洞察を記述した記事から現実的なベンチマークを生成するマルチエージェントワークフロー、(b)このワークフローを使用して生成された1,420のConDA問題、(c)最初に、生成されたConDA問題に基づいて会話データ分析ツールを体系的に評価できる評価ハーネスで構成されています。
論文参考訳（メタデータ） (2025-10-10T15:54:51Z)
Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。 RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文参考訳（メタデータ） (2025-06-29T08:34:59Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
MIMDE: Exploring the Use of Synthetic vs Human Data for Evaluating Multi-Insight Multi-Document Extraction Tasks [0.0]
我々は,Multi-Insight Multi-Document extract (MIMDE)タスクのセットを定義する。この課題は、調査回答の分析から医療記録の処理に至るまで、多くの実践的応用に欠かせないものである。そこで本研究では, 合成データの可能性を検討するために, 補完的な人間と合成データセットを新たに導入する。
論文参考訳（メタデータ） (2024-11-29T13:24:10Z)
DSBench: How Far Are Data Science Agents from Becoming Data Science Experts? [58.330879414174476]
現実的なタスクでデータサイエンスエージェントを評価するためのベンチマークであるDSBenchを紹介する。このベンチマークには、466のデータ分析タスクと、EloquenceとKaggleのコンペからソースされた74のデータモデリングタスクが含まれている。現状のLLM, LVLM, エージェントを評価したところ, 最高のエージェントはデータ解析タスクの34.12%しか解決できず, RPG(Relative Performance Gap)は34.74%であった。
論文参考訳（メタデータ） (2024-09-12T02:08:00Z)
DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文参考訳（メタデータ） (2024-07-01T18:58:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。