Fugu-MT 論文翻訳(概要): EvoIdeator: Evolving Scientific Ideas through Checklist-Grounded Reinforcement Learning

論文の概要: EvoIdeator: Evolving Scientific Ideas through Checklist-Grounded Reinforcement Learning

arxiv url: http://arxiv.org/abs/2603.21728v1
Date: Mon, 23 Mar 2026 09:15:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-24 19:11:39.585824
Title: EvoIdeator: Evolving Scientific Ideas through Checklist-Grounded Reinforcement Learning
Title（参考訳）: EvoIdeator: チェックリストを取り巻く強化学習を通じて科学的アイデアを進化させる
Authors: Andreas Sauter, Yuyue Zhao, Jacopo Urbani, Wenxiang Hu, Zaiqiao Meng, Lun Zhou, Xiaohui Yan, Yougang Lyu,
Abstract要約: EvoIdeatorは、RLトレーニング目標とtextbfchecklist-grounded feedbackを整合させることにより、科学的アイデアの進化を促進するフレームワーク Qwen3-4B上に構築されたEvoIdeatorは、重要な科学的指標において、はるかに大きなフロンティアモデルより優れている。
参考スコア（独自算出の注目度）: 15.169565493841384
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Scientific idea generation is a cornerstone of autonomous knowledge discovery, yet the iterative evolution required to transform initial concepts into high-quality research proposals remains a formidable challenge for Large Language Models (LLMs). Existing Reinforcement Learning (RL) paradigms often rely on rubric-based scalar rewards that provide global quality scores but lack actionable granularity. Conversely, language-based refinement methods are typically confined to inference-time prompting, targeting models that are not explicitly optimized to internalize such critiques. To bridge this gap, we propose \textbf{EvoIdeator}, a framework that facilitates the evolution of scientific ideas by aligning the RL training objective with \textbf{checklist-grounded feedback}. EvoIdeator leverages a structured judge model to generate two synergistic signals: (1) \emph{lexicographic rewards} for multi-dimensional optimization, and (2) \emph{fine-grained language feedback} that offers span-level critiques regarding grounding, feasibility, and methodological rigor. By integrating these signals into the RL loop, we condition the policy to systematically utilize precise feedback during both optimization and inference. Extensive experiments demonstrate that EvoIdeator, built on Qwen3-4B, significantly outperforms much larger frontier models across key scientific metrics. Crucially, the learned policy exhibits strong generalization to diverse external feedback sources without further fine-tuning, offering a scalable and rigorous path toward self-refining autonomous ideation.
Abstract（参考訳）: 科学的アイデア生成は、自律的な知識発見の基盤であるが、初期概念を高品質な研究提案に変換するために必要な反復進化は、Large Language Models (LLMs) にとって大きな課題である。既存の強化学習(RL)パラダイムは、グローバルな品質スコアを提供するが、実行可能な粒度が欠如しているルーリックベースのスカラー報酬に依存していることが多い。逆に、言語ベースの洗練手法は一般的に推論時プロンプトに限られており、そのような批判を内在化するために明示的に最適化されていないモデルをターゲットにしている。このギャップを埋めるために,RL学習目標をtextbf{checklist-grounded feedback} に整合させることにより,科学的アイデアの進化を促進するフレームワークである \textbf{EvoIdeator} を提案する。 EvoIdeatorは、構造化された判断モデルを利用して、2つの相乗的信号を生成する。(1)多次元最適化のための「emph{lexicographic rewards}」と(2)「emph{fine-fine-grand language feedback}」。これらの信号をRLループに統合することにより、最適化と推論の両方において正確なフィードバックを体系的に活用するようにポリシーを定めている。大規模な実験により、Qwen3-4B上に構築されたEvoIdeatorは、重要な科学的指標においてはるかに大きなフロンティアモデルよりも優れていることが示されている。重要なことは、学習されたポリシーは、さらなる微調整をすることなく、多様な外部フィードバックソースに強力な一般化を示し、自律的な自己修復へのスケーラブルで厳格な道を提供する。

関連論文リスト

Sci-CoE: Co-evolving Scientific Reasoning LLMs via Geometric Consensus with Sparse Supervision [15.806243963561776]
Sci-CoEは2段階の科学的共進化フレームワークであり、モデルが解法と検証器の両方として自己進化することを可能にする。最初の段階では、モデルは注釈付きデータの小さなセットを使用して、検証器の正当性判定アンカーを確立する。第2段階では、コンセンサス、信頼性、多様性を共同で考慮し、大規模な自己評価を促進する幾何学的報酬機構を導入する。
論文参考訳（メタデータ） (2026-02-12T16:46:00Z)
HOID-R1: Reinforcement Learning for Open-World Human-Object Interaction Detection Reasoning with Multimodal Large Language Model [13.82578761807402]
HOID-R1は,チェーン・オブ・シント(CoT)とグループ相対的ポリシー最適化のファインチューニングを統合した最初のHOI検出フレームワークである。 CoT推論における幻覚を軽減するために,CoT出力を監督するMLLM-as-a-judge機構を導入する。実験により、HOID-R1はHOI検出ベンチマークの最先端性能を達成し、新しいシナリオへのオープンワールドの一般化における既存の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2025-08-15T09:28:57Z)
Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback [59.078756231841574]
Critique-GRPOは、自然言語と数値フィードバックを統合して効果的なポリシー最適化を行うオンラインRLフレームワークである。批判-GRPOは、教師付き学習とRLに基づく微調整法を8つの難解な数学、STEM、一般的な推論タスクで一貫して上回っていることを示す。
論文参考訳（メタデータ） (2025-06-03T17:39:02Z)
A Survey on Post-training of Large Language Models [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。本稿では,タスク固有の精度を向上するファインチューニング,倫理的コヒーレンスと人間の嗜好との整合性を保証するアライメント,報酬設計の課題によらず多段階の推論を進める推論,統合と適応の5つのパラダイムを体系的に追跡したPoLMの総合的な調査について述べる。
論文参考訳（メタデータ） (2025-03-08T05:41:42Z)
Learning to Generate Research Idea with Dynamic Control [21.30777644522451]
大規模言語モデル (LLM) は仮説や研究のアイデアを生み出すことを約束している。 SFT(Supervised Fine-Tuning)とRL(Reinforcement Learning)を組み合わせた2段階のアプローチによる新しいフレームワークを提案する。本フレームワークは, 新規性, 実現可能性, 有効性の間のトレードオフを動的にナビゲートすることで, 高品質な成果を達成し, 研究アイデアに対するバランスのとれたアプローチを提供する。
論文参考訳（メタデータ） (2024-12-19T08:28:18Z)
The Superalignment of Superhuman Intelligence with Large Language Models [63.96120398355404]
我々は,この疑問に答えるために,学習の観点からスーパーアライメントの概念について議論する。スーパーアライメントにおけるいくつかの重要な研究課題、すなわち、弱いから強い一般化、スケーラブルな監視、評価に焦点を当てる。本稿では,学習者モデルの弱点を露呈しようとする敵対的クエリを生成する攻撃者,最小限の人間専門家とともに,批判モデルによって生成されたスケーラブルなフィードバックから学習することで自己を洗練させる学習者,与えられた質問応答対に対する批判や説明を生成する批判者,そして批判によって学習者を改善することを目的とした,3つのモジュールからなるスーパーアライメントの概念的枠組みを提案する。
論文参考訳（メタデータ） (2024-12-15T10:34:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。