論文の概要: Mind2Report: A Cognitive Deep Research Agent for Expert-Level Commercial Report Synthesis
- arxiv url: http://arxiv.org/abs/2601.04879v1
- Date: Thu, 08 Jan 2026 12:27:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.195974
- Title: Mind2Report: A Cognitive Deep Research Agent for Expert-Level Commercial Report Synthesis
- Title(参考訳): Mind2Report: エキスパートレベル商用レポート作成のための認知的ディープリサーチエージェント
- Authors: Mingyue Cheng, Daoyu Wang, Qi Liu, Shuo Yu, Xiaoyu Tao, Yuqian Wang, Chengzhong Chu, Yu Duan, Mingkang Long, Enhong Chen,
- Abstract要約: Mind2Reportは、専門家レベルのレポートを合成するために商業アナリストをエミュレートする、認知的なディープリサーチエージェントである。
具体的には、まずきめ細かな意図を探索し、それからWebソースを検索し、ハエの蒸留情報を記録し、その後、レポートを反復的に合成する。
- 参考スコア(独自算出の注目度): 43.799300827769116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthesizing informative commercial reports from massive and noisy web sources is critical for high-stakes business decisions. Although current deep research agents achieve notable progress, their reports still remain limited in terms of quality, reliability, and coverage. In this work, we propose Mind2Report, a cognitive deep research agent that emulates the commercial analyst to synthesize expert-level reports. Specifically, it first probes fine-grained intent, then searches web sources and records distilled information on the fly, and subsequently iteratively synthesizes the report. We design Mind2Report as a training-free agentic workflow that augments general large language models (LLMs) with dynamic memory to support these long-form cognitive processes. To rigorously evaluate Mind2Report, we further construct QRC-Eval comprising 200 real-world commercial tasks and establish a holistic evaluation strategy to assess report quality, reliability, and coverage. Experiments demonstrate that Mind2Report outperforms leading baselines, including OpenAI and Gemini deep research agents. Although this is a preliminary study, we expect it to serve as a foundation for advancing the future design of commercial deep research agents. Our code and data are available at https://github.com/Melmaphother/Mind2Report.
- Abstract(参考訳): 巨大で騒がしいWebソースからの有意義な商用レポートを合成することは、高いビジネス判断に不可欠である。
現在のディープ・リサーチ・エージェントは目覚ましい進歩を遂げているが、その報告は品質、信頼性、カバー範囲の点で制限されている。
本研究では,専門家レベルのレポートを合成するために,商業アナリストを模擬した認知的深層研究エージェントであるMind2Reportを提案する。
具体的には、まずきめ細かな意図を探索し、それからWebソースを検索し、ハエの蒸留情報を記録し、その後、レポートを反復的に合成する。
我々はMind2Reportをトレーニング不要なエージェントワークフローとして設計し、これらの長期認知プロセスをサポートするために、動的メモリで一般的な大規模言語モデル(LLM)を拡張する。
Mind2Reportを厳格に評価するために、200の現実世界の商用タスクからなるQRC-Evalを構築し、レポートの品質、信頼性、カバレッジを評価するための総合評価戦略を確立する。
実験によると、Mind2ReportはOpenAIやGeminiのディープリサーチエージェントなど、主要なベースラインを上回っている。
これは予備的な研究であるが、商業深層調査エージェントの今後の設計推進の基盤として機能することを期待している。
私たちのコードとデータはhttps://github.com/Melmaphother/Mind2Report.comで公開されています。
関連論文リスト
- Step-DeepResearch Technical Report [90.50586290399683]
コスト効率のよいエンドツーエンドエージェントである Step-DeepResearch を紹介する。
我々は、計画とレポート作成を強化するために、アトミック能力に基づくデータ合成戦略を提案する。
中国における評価ギャップを埋めるため,現実的な深層研究シナリオのためのADR-Benchを構築した。
論文 参考訳(メタデータ) (2025-12-23T16:32:27Z) - WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research [73.58638285105971]
本稿では,AIエージェントが膨大なWebスケール情報を洞察に富むレポートに合成しなければならない複雑な課題であるtextbfopen-ended Deep Research (OEDR) に取り組む。
人間の研究プロセスをエミュレートする新しいデュアルエージェントフレームワークである textbfWebWeaver を紹介する。
私たちのフレームワークは、DeepResearch Bench、DeepConsult、DeepResearchGymなど、主要なOEDRベンチマークにまたがる最先端の新たなベンチマークを確立しています。
論文 参考訳(メタデータ) (2025-09-16T17:57:21Z) - ReportBench: Evaluating Deep Research Agents via Academic Survey Tasks [14.371010711040304]
ReportBenchは、大規模言語モデル(LLM)によって生成された研究レポートの内容品質を評価するために設計されたベンチマークである。
本評価は,(1)引用文献の質と妥当性,(2)報告内容の忠実さと妥当性の2つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2025-08-14T03:33:43Z) - Deep Research Comparator: A Platform For Fine-grained Human Annotations of Deep Research Agents [30.401980824941003]
本稿では,ディープリサーチエージェントを評価するための総合的なフレームワークを提供するDeep Research Comparatorを紹介する。
ユーザクエリが与えられた場合、プラットフォームは2つの異なるエージェントからの最終的なレポートと、生成中の中間ステップを表示する。
アノテーションは、サイドバイサイド比較に基づいて最終レポートの全体的な品質を評価することができる。
論文 参考訳(メタデータ) (2025-07-07T21:35:09Z) - DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents [30.768405850755602]
DeepResearch Benchは100のPhDレベルの研究タスクからなるベンチマークである。
ディープリサーチエージェントの評価は本質的に複雑で、労働集約的である。
本稿では,人間の判断に強く適合する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2025-06-13T13:17:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。