論文の概要: DeepSurvey: Enhancing Analytical Depth and Citation Reliability in Automated Survey Generation
- arxiv url: http://arxiv.org/abs/2605.29522v1
- Date: Thu, 28 May 2026 07:40:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.958582
- Title: DeepSurvey: Enhancing Analytical Depth and Citation Reliability in Automated Survey Generation
- Title(参考訳): DeepSurvey: 自動サーベイ生成における分析深度と循環信頼性の向上
- Authors: Ziyue Yang, Da Ma, Hanqi Li, Zijian Wang, Tiancheng Huang, Zijian Hu, Chenrun Wang, Yunzhe Zhang, Xiaobao Wu, Kai Yu, Lu Chen,
- Abstract要約: DeepSurveyはフルテキストの論文から構造化された基調講演を抽出し、クラスタリングと比較分析を通じて横断的な関係をモデル化する。
これは、エビデンスに制約された引用代入を強制し、多粒度エージェントリファインメントを展開して、引用-蓄積アライメントを検証する。
実験の結果、DeepSurveyは最高のコンテンツスコア(8.644/10)と引用品質(12.3%と9.3%)を達成した。
- 参考スコア(独自算出の注目度): 27.73022251076876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As scientific literature grows rapidly, automated survey generation has become a key capability for AI scientists and human researchers. However, existing systems suffer from limited analytical depth due to reliance on abstracts and isolated paper processing, and unreliable citations from imprecise retrieval and post-hoc grounding, producing superficial surveys and may mislead researchers. We present DeepSurvey, an agentic system that addresses both. To enhance depth, DeepSurvey extracts structured keynotes from full-text papers, models cross-paper relationships through clustering and comparative analysis, and integrates code-repository analysis to recover implementation-level details. To fortify reliability, it combines citation-graph expansion with hybrid filtering for topic-focussed retrieval, enforces evidence-constrained citation assignment, and deploys multi-granularity agentic refinement to validate citation-claim alignment. Experiments show that DeepSurvey achieves the highest content score (8.644/10) and citation quality (12.3% and 9.3% recall and precision gains over the strongest baseline), generalizes more robustly across domains (0.14 vs 0.22 to 0.69 CS-to-non-CS drop), and is preferred over human-written surveys by domain experts (83.3% overall quality, 100% content depth).
- Abstract(参考訳): 科学文献が急速に成長するにつれ、AI科学者や人間の研究者にとって、自動調査生成が重要な能力となっている。
しかし,既存のシステムでは,要約や孤立紙処理への依存による分析深度が限られており,不正確検索やポストホックグラウンドからの信頼できない引用が表面調査を生み出し,研究者を誤解させる恐れがある。
本稿では,双方に対処するエージェントシステムであるDeepSurveyを紹介する。
深度を高めるため、DeepSurveyはフルテキストの論文から構造化された基調講演を抽出し、クラスタリングと比較分析を通じて横断的な関係をモデル化し、コードリポジトリ分析を統合して実装レベルの詳細を復元する。
信頼性を高めるため、引用グラフ拡張とハイブリッドフィルタリングを併用してトピック焦点検索を行い、エビデンス制約付き引用代入を強制し、複数粒度エージェント改良を展開し、引用値のアライメントを検証する。
実験の結果、DeepSurveyは最も高いコンテンツスコア(8.644/10)と引用品質(12.3%と9.3%のリコールと精度の向上)を達成し、ドメインをまたいでより堅牢に(0.14対0.22から0.69 CS-to-非CSドロップ)、ドメインの専門家による人間による調査(全体の品質、100%のコンテンツ深さ)よりも好まれている。
関連論文リスト
- AutoResearchBench: Benchmarking AI Agents on Complex Scientific Literature Discovery [55.70879973230979]
AutoResearchBenchは、自律的な科学文献発見のためのベンチマークである。
エージェントWebブラウジングに関する以前のベンチマークと比較すると、AutoResearchBenchは研究指向である。
最も強力なLCMでさえ、BrowseCompのような一般的なエージェントによるWebブラウジングベンチマークをほとんど征服したにもかかわらず、Deep Researchでは9.39%、Wide Researchでは9.31%の精度しか達成していない。
論文 参考訳(メタデータ) (2026-04-28T06:05:17Z) - Can Deep Research Agents Find and Organize? Evaluating the Synthesis Gap with Expert Taxonomies [57.11324429385405]
72のコンピュータサイエンスサーベイから得られた診断ベンチマークであるTaxoBenchを紹介する。
我々は,3,815個の引用を根本的真理として正確に分類した分類木を手作業で抽出した。
ベストエージェントは、専門家が選択した論文の20.9%しかリコールせず、完璧なインプットであっても、最高のモデルは組織の0.31 ARIしか達成していない。
論文 参考訳(メタデータ) (2026-01-18T11:57:09Z) - AutoMalDesc: Large-Scale Script Analysis for Cyber Threat Research [81.04845910798387]
脅威検出のための自然言語の説明を生成することは、サイバーセキュリティ研究において未解決の問題である。
本稿では,大規模に独立して動作する自動静的解析要約フレームワークAutoMalDescを紹介する。
アノテーション付きシード(0.9K)データセットや方法論,評価フレームワークなど,100万以上のスクリプトサンプルの完全なデータセットを公開しています。
論文 参考訳(メタデータ) (2025-11-17T13:05:25Z) - Span-level Detection of AI-generated Scientific Text via Contrastive Learning and Structural Calibration [2.105564340986074]
Sci-SpanDetはAI生成した学術テキストを検出するための構造認識フレームワークである。
セクション条件付きスタイリスティックモデリングとマルチレベルコントラスト学習を組み合わせることで、人間のニュアンスとAIの違いを捉える。
F1(AI)は80.17、AUROCは92.63、Span-F1は74.36である。
論文 参考訳(メタデータ) (2025-10-01T13:35:14Z) - DeepTRACE: Auditing Deep Research AI Systems for Tracking Reliability Across Citations and Evidence [50.97612134791782]
生成検索エンジンと深層研究のLLMエージェントは、信頼できるソース・グラウンドの合成を約束するが、ユーザーは常に過剰な自信、弱いソーシング、紛らわしい引用の慣行に遭遇する。
DeepTRACEは、社会技術的に基礎をおく新しい監査フレームワークで、コミュニティが特定した失敗事例を、回答テキスト、情報源、引用にまたがる8つの測定可能な次元に変換する。
論文 参考訳(メタデータ) (2025-09-02T00:32:38Z) - HySemRAG: A Hybrid Semantic Retrieval-Augmented Generation Framework for Automated Literature Synthesis and Methodological Gap Analysis [55.2480439325792]
HySemRAGは、Extract, Transform, Load (ETL)パイプラインとRetrieval-Augmented Generation (RAG)を組み合わせたフレームワークである。
システムは、マルチ層アプローチを通じて既存のRAGアーキテクチャの制限に対処する。
論文 参考訳(メタデータ) (2025-08-01T20:30:42Z) - DeepResearch$^{\text{Eco}}$: A Recursive Agentic Workflow for Complex Scientific Question Answering in Ecology [0.0]
DeepResearchは、自動化された科学合成のための新しいエージェントLLMベースのシステムである。
深度制御と広帯域制御によるオリジナルの研究課題の探索を支援する。
DeepResearchは、最大21倍のソース統合を実現している。
論文 参考訳(メタデータ) (2025-07-14T17:47:28Z) - Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - SciSage: A Multi-Agent Framework for High-Quality Scientific Survey Generation [2.985620880452744]
SciSageはリフレクション・ワン・ユー・ライト・パラダイムを使ったマルチエージェント・フレームワークである。
アウトライン、セクション、ドキュメントレベルでのドラフトを批判的に評価し、クエリの解釈、コンテンツ検索、洗練のための特別なエージェントと協調する。
また、11のコンピュータサイエンス領域にわたる46のハイインパクト論文(2020-2025)のベンチマークであるSurveyScopeをリリースしています。
論文 参考訳(メタデータ) (2025-06-15T02:23:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。