論文の概要: DeepSynth-Eval: Objectively Evaluating Information Consolidation in Deep Survey Writing
- arxiv url: http://arxiv.org/abs/2601.03540v1
- Date: Wed, 07 Jan 2026 03:07:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.177519
- Title: DeepSynth-Eval: Objectively Evaluating Information Consolidation in Deep Survey Writing
- Title(参考訳): DeepSynth-Eval: ディープサーベイ作成における情報統合の客観的評価
- Authors: Hongzhi Zhang, Yuanze Hu, Tinghai Zhang, Jia Fu, Tao Wang, Junwei Jing, Zhaoxin Fan, Qi Wang, Ruiming Tang, Han Li, Guorui Zhou, Kun Gai,
- Abstract要約: 本稿では,情報統合能力を客観的に評価するためのベンチマークであるDeep Synth-Evalを紹介する。
一般チェックリスト(実例)と制約チェックリスト(構造体)を用いたきめ細かい評価プロトコルを提案する。
その結果,エージェント型プラン・アンド・ライトは単ターン生成よりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 53.85037373860246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The evolution of Large Language Models (LLMs) towards autonomous agents has catalyzed progress in Deep Research. While retrieval capabilities are well-benchmarked, the post-retrieval synthesis stage--where agents must digest massive amounts of context and consolidate fragmented evidence into coherent, long-form reports--remains under-evaluated due to the subjectivity of open-ended writing. To bridge this gap, we introduce DeepSynth-Eval, a benchmark designed to objectively evaluate information consolidation capabilities. We leverage high-quality survey papers as gold standards, reverse-engineering research requests and constructing "Oracle Contexts" from their bibliographies to isolate synthesis from retrieval noise. We propose a fine-grained evaluation protocol using General Checklists (for factual coverage) and Constraint Checklists (for structural organization), transforming subjective judgment into verifiable metrics. Experiments across 96 tasks reveal that synthesizing information from hundreds of references remains a significant challenge. Our results demonstrate that agentic plan-and-write workflows significantly outperform single-turn generation, effectively reducing hallucinations and improving adherence to complex structural constraints.
- Abstract(参考訳): 大規模言語モデル(LLM)の自律エージェントへの進化は、Deep Researchの進歩を触媒している。
検索能力はよく理解されているが、検索後の合成段階では、エージェントは大量のコンテキストを消化し、断片化された証拠を一貫性のある長いレポートにまとめなければならない。
このギャップを埋めるため,情報統合能力を客観的に評価するためのベンチマークであるDeepSynth-Evalを導入する。
我々は,高品質な調査論文をゴールドスタンダードとして活用し,研究要求をリバースエンジニアリングし,文献から"Oracle Contexts"を構築し,検索ノイズからの合成を分離する。
本稿では,一般チェックリスト(実例)と制約チェックリスト(構造組織)を用いて,主観的判断を検証可能な指標に変換する,きめ細かい評価プロトコルを提案する。
96のタスクにわたる実験では、数百の参照から情報を合成することは重要な課題である。
以上の結果から,エージェント型計画書記ワークフローは単一ターン生成を著しく上回り,幻覚を効果的に低減し,複雑な構造的制約への順応性を向上させることが示唆された。
関連論文リスト
- SynClaimEval: A Framework for Evaluating the Utility of Synthetic Data in Long-Context Claim Verification [1.740313383876245]
長文クレーム検証における合成データの有用性を評価するためのフレームワークであるSynClaimEvalを紹介する。
本フレームワークでは,文脈長の変化による入力特性,ドメイン外ベンチマークへの一般化テスト,クレームの複雑性とエラータイプの変化を制御した合成ロジック,モデル説明が予測に合致する証拠を提供する度合いを計測した説明品質の3つの次元について検討する。
論文 参考訳(メタデータ) (2025-11-12T18:36:59Z) - EvoSyn: Generalizable Evolutionary Data Synthesis for Verifiable Learning [63.03672166010434]
我々は、進化的、タスクに依存しない、戦略を導いた、実行可能検証可能なデータ合成フレームワークを紹介します。
問題、多様な候補解、検証成果物を共同で合成する。
これは、人間による注釈付きチェックと戦略によるチェックの合意を強制する一貫性に基づく評価器を通じて戦略を反復的に発見する。
論文 参考訳(メタデータ) (2025-10-20T11:56:35Z) - A Rigorous Benchmark with Multidimensional Evaluation for Deep Research Agents: From Answers to Reports [24.09178055088843]
Deep Research Agents (DRA)は、タスク分解、クロスソース検索、多段階推論、構造化出力の能力を示す。
本稿では,DRAとレポートスタイルの応答に適した厳密なベンチマークと多次元評価フレームワークを提案する。
このフレームワークは、DRAが生成した長期レポートの総合的な評価を可能にし、セマンティックな品質、トピックの焦点、検索の信頼性のための総合的なスコアリング指標を統合する。
論文 参考訳(メタデータ) (2025-10-02T16:40:02Z) - WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research [73.58638285105971]
本稿では,AIエージェントが膨大なWebスケール情報を洞察に富むレポートに合成しなければならない複雑な課題であるtextbfopen-ended Deep Research (OEDR) に取り組む。
人間の研究プロセスをエミュレートする新しいデュアルエージェントフレームワークである textbfWebWeaver を紹介する。
私たちのフレームワークは、DeepResearch Bench、DeepConsult、DeepResearchGymなど、主要なOEDRベンチマークにまたがる最先端の新たなベンチマークを確立しています。
論文 参考訳(メタデータ) (2025-09-16T17:57:21Z) - Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。