論文の概要: Evaluating Novelty in AI-Generated Research Plans Using Multi-Workflow LLM Pipelines
- arxiv url: http://arxiv.org/abs/2601.09714v1
- Date: Wed, 24 Dec 2025 12:41:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.6904
- Title: Evaluating Novelty in AI-Generated Research Plans Using Multi-Workflow LLM Pipelines
- Title(参考訳): マルチフローLLMパイプラインを用いたAIによる研究計画の新規性評価
- Authors: Devesh Saraogi, Rohit Singhee, Dhruv Kumar,
- Abstract要約: 本稿では, 反復的推論, 進化的探索, 分解を用いたエージェントシステムが, より斬新で実現可能な研究計画を創出できるかどうかを考察する。
我々は、リフレクションベースの反復リフレクション、サカナAI v2進化アルゴリズム、Googleコサイディストマルチエージェントフレームワーク、GPT Deep Research、Gemini3 Proマルチモーダルロングコンテキストパイプラインの5つの理由付けアーキテクチャをベンチマークした。
その結果, 創造性を犠牲にすることなく, 高い達成性を維持しつつ, 研究領域にまたがる様々なパフォーマンスが明らかとなった。
- 参考スコア(独自算出の注目度): 1.3986052226424095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integration of Large Language Models (LLMs) into the scientific ecosystem raises fundamental questions about the creativity and originality of AI-generated research. Recent work has identified ``smart plagiarism'' as a concern in single-step prompting approaches, where models reproduce existing ideas with terminological shifts. This paper investigates whether agentic workflows -- multi-step systems employing iterative reasoning, evolutionary search, and recursive decomposition -- can generate more novel and feasible research plans. We benchmark five reasoning architectures: Reflection-based iterative refinement, Sakana AI v2 evolutionary algorithms, Google Co-Scientist multi-agent framework, GPT Deep Research (GPT-5.1) recursive decomposition, and Gemini~3 Pro multimodal long-context pipeline. Using evaluations from thirty proposals each on novelty, feasibility, and impact, we find that decomposition-based and long-context workflows achieve mean novelty of 4.17/5, while reflection-based approaches score significantly lower (2.33/5). Results reveal varied performance across research domains, with high-performing workflows maintaining feasibility without sacrificing creativity. These findings support the view that carefully designed multi-stage agentic workflows can advance AI-assisted research ideation.
- Abstract(参考訳): 科学エコシステムへのLLM(Large Language Models)の統合は、AI生成研究の創造性と独創性に関する根本的な疑問を提起する。
近年の研究では、モデルが既存のアイデアを用語的シフトで再現する一段階のアプローチの関心事として、'smart plagiarism'(smart plagiarism)'が特定されている。
本稿では, 反復的推論, 進化的探索, 再帰的分解を用いた多段階のエージェントワークフローが, より斬新で実現可能な研究計画を生み出すことができるかどうかを考察する。
我々は、リフレクションベースの反復的洗練、サカナAI v2進化アルゴリズム、Googleコサイディストマルチエージェントフレームワーク、GPTディープリサーチ(GPT-5.1)再帰分解、Gemini~3 Proマルチモーダルロングコンテキストパイプラインの5つの理由付けアーキテクチャをベンチマークする。
新規性, 実現可能性, 影響に関する30の提案から, 分解ベースおよび長文ワークフローが平均新規性4.17/5を達成するのに対し, リフレクションベースアプローチは有意に低い(2.33/5)。
その結果、高いパフォーマンスのワークフローが創造性を犠牲にすることなく実現性を維持するという、研究領域間でのさまざまなパフォーマンスが明らかとなった。
これらの知見は、慎重に設計された多段階のエージェントワークフローがAIによる研究のアイデアを前進させることができるという見解を支持している。
関連論文リスト
- Deep Research: A Systematic Survey [118.82795024422722]
Deep Research (DR)は、大規模言語モデルの推論能力と検索エンジンなどの外部ツールを組み合わせることを目的としている。
本調査は,深層研究システムの包括的かつ体系的な概要を提示する。
論文 参考訳(メタデータ) (2025-11-24T15:28:28Z) - IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction [107.49922328855025]
IterResearchは、マルコフ決定過程として長期研究を再構築する、新しい反復的深層研究パラダイムである。
6つのベンチマークで平均+14.5ppの既存のオープンソースエージェントよりも大幅に改善されている。
これは効果的なプロンプト戦略として機能し、ロングホライゾンタスクにおけるReActよりも19.2ppのフロンティアモデルを改善する。
論文 参考訳(メタデータ) (2025-11-10T17:30:08Z) - RECODE-H: A Benchmark for Research Code Development with Interactive Human Feedback [87.97664892075811]
研究論文やリポジトリからの102タスクのベンチマークであるRECODE-Hを提案する。
構造化された命令、単体テスト、現実的な研究者とエージェントのコラボレーションを反映する5段階のフィードバック階層が含まれる。
フィードバックを反復的なコード生成に統合するフレームワークであるReCodeAgentも紹介します。
論文 参考訳(メタデータ) (2025-10-07T17:45:35Z) - A Survey on Code Generation with LLM-based Agents [61.474191493322415]
大規模言語モデル(LLM)を利用したコード生成エージェントは、ソフトウェア開発パラダイムに革命をもたらしている。
LLMは3つのコア特徴によって特徴づけられる。
本稿では,LLMに基づくコード生成エージェントの分野を体系的に調査する。
論文 参考訳(メタデータ) (2025-07-31T18:17:36Z) - Deep Research Agents: A Systematic Examination And Roadmap [109.53237992384872]
Deep Research (DR) エージェントは複雑な多ターン情報研究タスクに取り組むように設計されている。
本稿では,DRエージェントを構成する基礎技術とアーキテクチャコンポーネントの詳細な分析を行う。
論文 参考訳(メタデータ) (2025-06-22T16:52:48Z) - Understanding Software Engineering Agents Through the Lens of Traceability: An Empirical Study [15.97770416681533]
ソフトウェアエンジニアリングエージェント(SWEエージェント)は、ユーザの入力を解釈し、環境フィードバックに応答することで、自律的に動作する。
本稿では,SWEエージェントの動作を,実行トレースのレンズを通してシステマティックに解析する。
論文 参考訳(メタデータ) (2025-06-10T00:41:54Z) - ResearchCodeAgent: An LLM Multi-Agent System for Automated Codification of Research Methodologies [16.90884865239373]
本研究では,研究方法論の体系化を自動化する新しいマルチエージェントシステムであるResearchCodeAgentを紹介する。
このシステムは、ハイレベルな研究概念と実践的な実装のギャップを埋める。
ResearchCodeAgentは、研究実施プロセスに向けた重要なステップであり、機械学習研究のペースを加速する可能性がある。
論文 参考訳(メタデータ) (2025-04-28T07:18:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。