論文の概要: Dont Stop Early: Scalable Enterprise Deep Research with Controlled Information Flow and Evidence-Aware Termination
- arxiv url: http://arxiv.org/abs/2604.24978v1
- Date: Mon, 27 Apr 2026 20:31:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.591162
- Title: Dont Stop Early: Scalable Enterprise Deep Research with Controlled Information Flow and Evidence-Aware Termination
- Title(参考訳): 早めに止める - 制御された情報フローとエビデンス対応の終了によるスケーラブルなエンタープライズディープリサーチ
- Authors: Prafulla Kumar Choubey, Kung-Hsiang Huang, Pranav Narayanan Venkit, Jiaxin Zhang, Vaibhav Vats, Yu Li, Xiangyu Peng, Chien-Sheng Wu,
- Abstract要約: エンタープライズディープリサーチは、不均一な情報カバレッジ、コンテキストの爆発、早めの停止によって、意思決定可能なレポートを作成できないことが多い。
これらの障害に対処するスケーラブルなエンタープライズディープリサーチアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 48.39579693613492
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Enterprise deep research often fails to produce decision-ready reports due to uneven information coverage, context explosion, and premature stopping. We propose a scalable Enterprise Deep Research (EDR) architecture to address these failures. Our system (i) decomposes requests into coverage-driven objectives via outline generation with reflection, (ii) localizes context with dependency-guided execution and explicit information sharing, and (iii) enforces evidence-based completion criteria so agents iteratively collect information until sufficiency conditions are met. We evaluate on an internal sales enablement task and the public DeepResearch Bench benchmark, where our proposed system design achieves the strongest overall performance compared with competitive deep-research baselines. The results show that dependency-controlled context and explicit evidence sufficiency criteria reduce premature stopping and improve the consistency and depth of enterprise research outputs.
- Abstract(参考訳): エンタープライズディープリサーチは、不均一な情報カバレッジ、コンテキストの爆発、早めの停止によって、意思決定可能なレポートを作成できないことが多い。
これらの障害に対処するために,スケーラブルなエンタープライズディープリサーチ(EDR)アーキテクチャを提案する。
私たちの制度
(i)リフレクションによるアウトライン生成を通じて、要求をカバレッジ駆動の目的に分解する。
(ii)依存性誘導型実行と明示的な情報共有でコンテキストをローカライズし、
三 証拠に基づく完成基準を施行し、不十分な条件が整うまで、エージェントが情報を反復的に収集する。
提案するシステム設計は,競争力のあるDeep-Researchベースラインと比較して,最も高い総合的な性能を達成している。
その結果, 依存制御コンテキストと明示的エビデンス満足度基準により, 企業研究成果の早期停止と整合性と深度の向上が図られた。
関連論文リスト
- Marco DeepResearch: Unlocking Efficient Deep Research Agents via Verification-Centric Design [39.31356016375221]
Marco DeepResearchは、検証中心のフレームワーク設計を3段階に最適化したディープリサーチエージェントである。
本稿では,質問の難易度を制御するために,グラフベースおよびエージェントベースQA合成に検証機構を導入する。
実験軌道に明示的な検証パターンを注入する検証駆動合成軌道法を設計する。
Marco DeepResearch自体を推論時に検証として使用し、課題に対するパフォーマンスを効果的に向上する。
論文 参考訳(メタデータ) (2026-03-30T12:42:02Z) - Total Recall QA: A Verifiable Evaluation Suite for Deep Research Agents [46.528475077428745]
本稿では,ディープリサーチエージェントを評価するための要件リストとオプション特性について述べる。
我々は Wikidata-Wikipedia を実世界の情報源として構築したディープリサーチベンチマーク TRQA を構築した。
論文 参考訳(メタデータ) (2026-03-19T05:58:46Z) - AgentCPM-Report: Interleaving Drafting and Deepening for Open-Ended Deep Research [85.51475655916026]
AgentCPM-Reportは軽量だが高性能なローカルソリューションで、人間の記述プロセスを反映したフレームワークで構成されている。
我々のフレームワークは、モデルがアウトラインを動的に修正できるWARP(Writeing As Reasoning Policy)を使用している。
DeepResearch Bench、DeepConsult、DeepResearch Gymの実験は、AgentCPM-Reportが主要なクローズドソースシステムより優れていることを示した。
論文 参考訳(メタデータ) (2026-02-06T09:45:04Z) - DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents [10.197402632091551]
DeepSearchQAは、難しい多段階情報検索タスクのエージェントを評価する900プロンプトのベンチマークである。
このデータセットは、エージェントが複雑な検索計画を実行し、完全な回答リストを生成する能力を評価するように設計されている。
論文 参考訳(メタデータ) (2026-01-28T19:20:47Z) - Chaining the Evidence: Robust Reinforcement Learning for Deep Search Agents with Citation-Aware Rubric Rewards [60.0970117192627]
強化学習(Reinforcement Learning, RL)は, LLMに基づくディープサーチエージェントの強化に重要な手法である。
既存のアプローチは主にバイナリ結果の報酬に依存しており、エージェントの推論プロセスの包括性と事実性を捉えていない。
ディープサーチエージェントのための微粒化報酬フレームワークである textbfCitation-aware RL Rewards (CaRR) を提案する。
論文 参考訳(メタデータ) (2026-01-09T18:57:53Z) - DeepSynth-Eval: Objectively Evaluating Information Consolidation in Deep Survey Writing [53.85037373860246]
本稿では,情報統合能力を客観的に評価するためのベンチマークであるDeep Synth-Evalを紹介する。
一般チェックリスト(実例)と制約チェックリスト(構造体)を用いたきめ細かい評価プロトコルを提案する。
その結果,エージェント型プラン・アンド・ライトは単ターン生成よりも大幅に優れていた。
論文 参考訳(メタデータ) (2026-01-07T03:07:52Z) - Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation [63.55258191625131]
InfoDeepSeekは、現実世界の動的Web環境でエージェント情報を求めるための新しいベンチマークである。
本稿では,決定性,難易度,多様性の基準を満たす課題クエリを構築するための体系的手法を提案する。
本研究では,情報探索結果の正確性,有用性,コンパクト性に関する詳細な指標を含む,動的エージェント情報探索に適した最初の評価フレームワークを開発する。
論文 参考訳(メタデータ) (2025-05-21T14:44:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。