論文の概要: Super Research: Answering Highly Complex Questions with Large Language Models through Super Deep and Super Wide Research
- arxiv url: http://arxiv.org/abs/2603.00582v2
- Date: Tue, 03 Mar 2026 06:08:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 14:54:12.532682
- Title: Super Research: Answering Highly Complex Questions with Large Language Models through Super Deep and Super Wide Research
- Title(参考訳): Super Research: Super Deep and Super Wide Research による大規模言語モデルによる複雑質問への回答
- Authors: Yubo Dong, Nianhao You, Yuxuan Hou, Zixun Sun, Yue Zhang, Liang Zhang, Siyuan Zhao, Hehe Fan,
- Abstract要約: 大規模言語モデル(LLM)は、ディープリサーチやワイドサーチにおいて習熟性を示しているが、非常に複雑な問題を解く能力は、まだ明らかにされていない。
我々は, (i) 構造化された分解を研究計画に統合する複雑な自律型研究タスク, (ii) 多様な視点の超広視野検索, (iii) 反復的なクエリによる不確実性解決のための超深層調査を紹介する。
- 参考スコア(独自算出の注目度): 31.556590005794217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Language Models (LLMs) have demonstrated proficiency in Deep Research or Wide Search, their capacity to solve highly complex questions-those requiring long-horizon planning, massive evidence gathering, and synthesis across heterogeneous sources-remains largely unexplored. We introduce Super Research, a task for complex autonomous research tasks that integrates (i) structured decomposition into a research plan, (ii) super wide retrieval for diverse perspectives, and (iii) super deep investigation to resolve uncertainties through iterative queries. To evaluate this capability, we curated a benchmark of 300 expert-written questions across diverse domains, each requiring up to 100+ retrieval steps and 1,000+ web pages to reconcile conflicting evidence. Super Research produces verifiable reports with fine-grained citations and intermediate artifacts (e.g., outlines and tables) to ensure traceable reasoning. Furthermore, we present a graph-anchored auditing protocol that evaluates Super Research along five dimensions: Coverage, Logical Consistency, Report Utility, Objectivity and Citation Health. While super-complex questions may be infrequent in standard applications, Super Research serves as a critical ceiling evaluation and stress test for LLM capabilities. A model's proficiency within Super Research acts as a powerful proxy for its general research competence; success here suggests the robustness necessary to navigate nearly any subordinate research task. Leaderboard is available at: https://cnsdqd-dyb.github.io/Super-Research-Benchmark/
- Abstract(参考訳): 大規模言語モデル(LLM)は、ディープリサーチやワイドサーチの習熟度を示す一方で、長い水平計画、大規模なエビデンス収集、ヘテロジニアスソース間の合成といった、非常に複雑な問題を解く能力は、ほとんど探索されていない。
私たちは、統合された複雑な自律的な研究タスクであるSuper Researchを紹介します。
一 研究計画に構造化された分解
(二 多様な視点の超広範検索、及び
三 反復的な問合せにより不確実性を解決するための超深い調査。
この能力を評価するために、さまざまな領域にまたがる300のエキスパートによる質問のベンチマークを作成し、それぞれ100以上の検索ステップと1000以上のWebページを比較検討した。
Super Researchは、詳細な引用と中間アーティファクト(例:アウトラインとテーブル)による検証可能なレポートを生成して、トレース可能な推論を保証する。
さらに,表層,論理的整合性,レポートユーティリティ,客観性,Citation Healthの5つの側面に沿って,スーパーリサーチを評価するグラフアンコール監査プロトコルを提案する。
超複雑な質問は標準的な応用では少ないかもしれないが、スーパーリサーチはLLM機能に対する重要な天井評価とストレステストとして機能する。
スーパーリサーチにおけるモデルの熟練度は、その一般的な研究能力の強力なプロキシとして機能し、ここでの成功は、ほぼすべての従属研究課題をナビゲートするために必要な堅牢さを示唆している。
Leaderboard は https://cnsdqd-dyb.github.io/Super-Research-Benchmark/
関連論文リスト
- AgentCPM-Report: Interleaving Drafting and Deepening for Open-Ended Deep Research [85.51475655916026]
AgentCPM-Reportは軽量だが高性能なローカルソリューションで、人間の記述プロセスを反映したフレームワークで構成されている。
我々のフレームワークは、モデルがアウトラインを動的に修正できるWARP(Writeing As Reasoning Policy)を使用している。
DeepResearch Bench、DeepConsult、DeepResearch Gymの実験は、AgentCPM-Reportが主要なクローズドソースシステムより優れていることを示した。
論文 参考訳(メタデータ) (2026-02-06T09:45:04Z) - Deep Researcher with Sequential Plan Reflection and Candidates Crossover (Deep Researcher Reflect Evolve) [0.0]
本稿では、複雑なPhDレベルのトピックに関する詳細な研究レポートを作成するために設計された、新しいDeep Researcherアーキテクチャを提案する。
本システムでは,リフレクションによる逐次研究計画修正と候補クロスオーバーアルゴリズムという,2つの重要なイノベーションを活用している。
我々の建築は46.21点を達成し、先進的な深層研究エージェントを超越して優れた性能を示した。
論文 参考訳(メタデータ) (2026-01-28T18:45:39Z) - Chaining the Evidence: Robust Reinforcement Learning for Deep Search Agents with Citation-Aware Rubric Rewards [60.0970117192627]
強化学習(Reinforcement Learning, RL)は, LLMに基づくディープサーチエージェントの強化に重要な手法である。
既存のアプローチは主にバイナリ結果の報酬に依存しており、エージェントの推論プロセスの包括性と事実性を捉えていない。
ディープサーチエージェントのための微粒化報酬フレームワークである textbfCitation-aware RL Rewards (CaRR) を提案する。
論文 参考訳(メタデータ) (2026-01-09T18:57:53Z) - Step-DeepResearch Technical Report [90.50586290399683]
コスト効率のよいエンドツーエンドエージェントである Step-DeepResearch を紹介する。
我々は、計画とレポート作成を強化するために、アトミック能力に基づくデータ合成戦略を提案する。
中国における評価ギャップを埋めるため,現実的な深層研究シナリオのためのADR-Benchを構築した。
論文 参考訳(メタデータ) (2025-12-23T16:32:27Z) - DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research [152.2148664328137]
ディープ・リサーチ・モデルは、多段階の研究を行い、長文でよく理解された回答を生成する。
ほとんどのオープンディープリサーチモデルは、検証可能な報酬を伴う強化学習を通じて、短い形式のQAタスクで訓練されている。
我々は、オープンエンドで長期のディープリサーチのために直接訓練された最初のオープンモデルであるDeep Research Tulu (DR Tulu-8B)を開発した。
論文 参考訳(メタデータ) (2025-11-24T18:35:54Z) - Deep Research: A Systematic Survey [118.82795024422722]
Deep Research (DR)は、大規模言語モデルの推論能力と検索エンジンなどの外部ツールを組み合わせることを目的としている。
本調査は,深層研究システムの包括的かつ体系的な概要を提示する。
論文 参考訳(メタデータ) (2025-11-24T15:28:28Z) - ResearchRubrics: A Benchmark of Prompts and Rubrics For Evaluating Deep Research Agents [11.666923792025313]
Deep Research(DR)は、大規模言語モデルを活用して、オープンなクエリに対処する新興エージェントアプリケーションである。
我々はResearchRubricsを紹介します。これは2,800時間以上の人的労働時間で構築されたDRの標準ベンチマークです。
また,DRタスクを3つの軸(概念的幅,論理的ネスト,探索)に沿って分類する,新たな複雑性フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-10T23:07:14Z) - Deep Research: A Survey of Autonomous Research Agents [33.96146020332329]
大規模言語モデル(LLM)の急速な進歩は、複雑なタスクを自律的に実行可能なエージェントシステムの開発を促している。
これらの制約を克服するため、深層研究のパラダイムが提案され、エージェントは、Webベースの証拠に根ざした包括的で忠実な分析レポートを生成するために、計画、検索、合成に積極的に従事する。
本稿では,計画,質問開発,Web探索,レポート生成の4段階からなるディープリサーチパイプラインの体系的概要について述べる。
論文 参考訳(メタデータ) (2025-08-18T09:26:14Z) - BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent [74.10138164281618]
BrowseComp-Plus(BrowseComp-Plus)は、BrowseCompから派生したベンチマークである。
このベンチマークは、ディープリサーチエージェントと検索方法の総合的な評価とアンタングル解析を可能にする。
論文 参考訳(メタデータ) (2025-08-08T17:55:11Z) - Can AI Validate Science? Benchmarking LLMs for Accurate Scientific Claim $\rightarrow$ Evidence Reasoning [6.043212666944194]
CLAIM-BENCHは,科学的クレームエビデンス抽出と検証において,大規模言語モデルの能力を評価するためのベンチマークである。
GPT-4やClaudeのようなクローズドソースモデルは、精度とリコールにおいて、オープンソースモデルよりも一貫して優れています。
戦略的に設計された3つのパスと1対1のプロンプトアプローチは、分散した証拠とクレームを正確にリンクするLSMの能力を大幅に向上させた。
論文 参考訳(メタデータ) (2025-06-09T21:04:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。