論文の概要: DeepResearch Arena: The First Exam of LLMs' Research Abilities via Seminar-Grounded Tasks
- arxiv url: http://arxiv.org/abs/2509.01396v1
- Date: Mon, 01 Sep 2025 11:42:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.669217
- Title: DeepResearch Arena: The First Exam of LLMs' Research Abilities via Seminar-Grounded Tasks
- Title(参考訳): DeepResearch Arena:セミナー・グラウンド・タスクによるLDMsの研究能力の初のエグザム
- Authors: Haiyuan Wan, Chen Yang, Junchi Yu, Meiqi Tu, Jiaxuan Lu, Di Yu, Jianbao Cao, Ben Gao, Jiaqing Xie, Aoran Wang, Wenlong Zhang, Philip Torr, Dongzhan Zhou,
- Abstract要約: DeepResearch Arena(ディープリサーチアリーナ)は、豊富な専門家の会話とインタラクションをキャプチャする学術セミナーに基礎を置いているベンチマークである。
評価の結果,DeepResearch Arenaは最先端のエージェントに重大な課題を呈している。
- 参考スコア(独自算出の注目度): 39.57908243087332
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep research agents have attracted growing attention for their potential to orchestrate multi-stage research workflows, spanning literature synthesis, methodological design, and empirical verification. Despite these strides, evaluating their research capability faithfully is rather challenging due to the difficulty of collecting frontier research questions that genuinely capture researchers' attention and intellectual curiosity. To address this gap, we introduce DeepResearch Arena, a benchmark grounded in academic seminars that capture rich expert discourse and interaction, better reflecting real-world research environments and reducing the risk of data leakage. To automatically construct DeepResearch Arena, we propose a Multi-Agent Hierarchical Task Generation (MAHTG) system that extracts research-worthy inspirations from seminar transcripts. The MAHTG system further translates research-worthy inspirations into high-quality research tasks, ensuring the traceability of research task formulation while filtering noise. With the MAHTG system, we curate DeepResearch Arena with over 10,000 high-quality research tasks from over 200 academic seminars, spanning 12 disciplines, such as literature, history, and science. Our extensive evaluation shows that DeepResearch Arena presents substantial challenges for current state-of-the-art agents, with clear performance gaps observed across different models.
- Abstract(参考訳): ディープリサーチエージェントは、多段階の研究ワークフローを編成する可能性、文学合成、方法論設計、経験的検証に注目が集まっている。
これらの努力にもかかわらず、研究者の注意と知的好奇心を真にとらえるフロンティア研究の質問を集めるのが困難であるため、彼らの研究能力を忠実に評価することはかなり難しい。
このギャップに対処するために、DeepResearch Arenaという学術セミナーに基礎を置くベンチマークを紹介します。
本稿では,DeepResearch Arenaを自動構築するために,セミナーテキストから研究に値するインスピレーションを抽出するマルチエージェント階層タスク生成(MAHTG)システムを提案する。
MAHTGシステムは、研究に値するインスピレーションを高品質な研究タスクに変換し、ノイズをフィルタリングしながら研究タスクの定式化のトレーサビリティを確保する。
MAHTGシステムでは、200以上の学術セミナーから1万以上の高品質な研究タスクでDeepResearch Arenaをカリキュラムし、文学、歴史、科学など12の分野にまたがる。
我々はDeepResearch Arenaが現在最先端のエージェントに重大な課題を呈し、異なるモデルで明らかなパフォーマンスギャップが観察されていることを明らかにした。
関連論文リスト
- Deep Research: A Survey of Autonomous Research Agents [33.96146020332329]
大規模言語モデル(LLM)の急速な進歩は、複雑なタスクを自律的に実行可能なエージェントシステムの開発を促している。
これらの制約を克服するため、深層研究のパラダイムが提案され、エージェントは、Webベースの証拠に根ざした包括的で忠実な分析レポートを生成するために、計画、検索、合成に積極的に従事する。
本稿では,計画,質問開発,Web探索,レポート生成の4段階からなるディープリサーチパイプラインの体系的概要について述べる。
論文 参考訳(メタデータ) (2025-08-18T09:26:14Z) - AI4Research: A Survey of Artificial Intelligence for Scientific Research [55.5452803680643]
我々はAI for Research(AI4Research)に関する総合的な調査を行う。
まず、AI4Researchの5つの主要なタスクを分類する系統分類を導入する。
主要な研究ギャップを特定し、将来有望な方向性を明らかにする。
論文 参考訳(メタデータ) (2025-07-02T17:19:20Z) - DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments [20.498100965239818]
我々は、LLMベースのディープリサーチエージェントのエンドツーエンドトレーニングのための、初の総合的なフレームワークであるDeepResearcherを紹介する。
固定コーパス内にすべての必要な情報が存在すると仮定するRAGベースのアプローチとは異なり、我々の手法はオープンウェブのノイズ、非構造化、動的性質をナビゲートするエージェントを訓練する。
オープンドメインの研究タスクに関する大規模な実験は、DeepResearcherがエンジニアリングベースの素早いベースラインよりも最大28.9ポイントの大幅な改善を達成していることを示している。
論文 参考訳(メタデータ) (2025-04-04T04:41:28Z) - ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition [67.26124739345332]
大規模言語モデル(LLM)は科学的研究を支援する可能性を示しているが、高品質な研究仮説を発見する能力はいまだ検討されていない。
我々は,LLMを科学的発見のサブタスクのほぼ十分セットで評価するための,最初の大規模ベンチマークを紹介する。
学術論文から重要コンポーネント(研究質問、背景調査、インスピレーション、仮説)を抽出する自動フレームワークを開発する。
論文 参考訳(メタデータ) (2025-03-27T08:09:15Z) - SurveyAgent: A Conversational System for Personalized and Efficient Research Survey [50.04283471107001]
本稿では,研究者にパーソナライズされた効率的な調査支援を目的とした会話システムであるSurveyAgentを紹介する。
SurveyAgentは3つの重要なモジュールを統合している。文書を整理するための知識管理、関連する文献を発見するための勧告、より深いレベルでコンテンツを扱うためのクエリ回答だ。
本評価は,研究活動の合理化におけるSurveyAgentの有効性を実証し,研究者の科学文献との交流を促進する能力を示すものである。
論文 参考訳(メタデータ) (2024-04-09T15:01:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。