論文の概要: Debate as Reward: A Multi-Agent Reward System for Scientific Ideation via RL Post-Training
- arxiv url: http://arxiv.org/abs/2604.16723v1
- Date: Fri, 17 Apr 2026 21:54:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.146289
- Title: Debate as Reward: A Multi-Agent Reward System for Scientific Ideation via RL Post-Training
- Title(参考訳): Rewardとしての議論:RLポストトライニングによる科学的思考のためのマルチエージェント・リワードシステム
- Authors: Moein Salimi, Babak Hosseini Mohtasham, Amin Aghakasiri, Mahdi Naieni, Amir Hossein Qeysarbeigi, Mohammad Masih Shalchian Nazer, Zahra Azar, Mahdi Jafari Siavoshani, Mohammad Hossein Rohban,
- Abstract要約: 逆ハック(Reward Hacking)とは、モデルが不完全な評価プロキシを利用してスコアを最大化し、真の科学的革新を生まない場所である。
本稿では,高品質な科学的アイデア生成に適したRLフレームワークを提案する。
我々のフレームワークは、ノベルティ、実現可能性、有効性の専門家評価指標間で、最先端のベースラインを著しく上回ります。
- 参考スコア(独自算出の注目度): 5.60408836929398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated potential in automating scientific ideation, yet current approaches relying on iterative prompting or complex multi-agent architectures often suffer from hallucination or computational inefficiency. A critical bottleneck in applying Reinforcement Learning (RL) to this open-ended domain is reward hacking -- where models exploit imperfect evaluation proxies to maximize scores without producing genuine scientific innovation. To address these limitations, we propose an RL framework explicitly tailored for high-quality scientific idea generation. We propose the first multi-agent reward function designed to serve as a judge, decoupling methodological validation from implementation details while providing strict binary rewards that are robust to reward hacking. To effectively optimize against this sparse signal, we utilize an unbiased variant of Group Relative Policy Optimization to mitigate artificial length bias. We grounded our training in ICLR-320, a curated dataset of problem-solution pairs extracted from ICLR 2024 proceedings. Experiments demonstrate that our framework significantly outperforms state-of-the-art baselines across expert-evaluated metrics of novelty, feasibility, and effectiveness.
- Abstract(参考訳): 大規模言語モデル(LLM)は科学的概念の自動化の可能性を実証しているが、現在のアプローチでは反復的なプロンプトや複雑なマルチエージェントアーキテクチャは幻覚や計算の非効率に悩まされることが多い。
Reinforcement Learning(RL)をこのオープンエンドの領域に適用する上で、重要なボトルネックは報酬のハッキングである。
これらの制約に対処するため,我々は,高品質な科学的アイデア生成に適したRLフレームワークを提案する。
本稿では, 審査員として機能し, 実装の詳細から方法論的検証を分離すると同時に, ハッキングに対して堅牢な厳密な二項報酬を提供することを目的とした, 初のマルチエージェント報酬関数を提案する。
このスパース信号に対して効果的に最適化するために、グループ相対ポリシー最適化の偏りのない変種を用いて、人工的長さバイアスを緩和する。
我々は、ICLR 2024プロシージャから抽出した問題解決ペアのキュレートされたデータセットであるICLR-320でトレーニングを行った。
実験により、我々のフレームワークは、ノベルティ、実現可能性、有効性の専門家評価指標で、最先端のベースラインを大幅に上回っていることが示された。
関連論文リスト
- RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time [51.256131853751754]
本研究では,多次元的批判を明示的に生成するために報酬モデルを教えることで,受動的評価器から能動的最適化ツールへ変換することを示す。
提案手法では, 嗜好データから高品質な論理を復元する原理的フレームワークであるpreference-Anchored Rationalization (PARROT) を導入する。
その結果、RationalRewards (8B) は、オープンソース報酬モデル間の最先端の好み予測を実現する。
論文 参考訳(メタデータ) (2026-04-13T15:38:09Z) - Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - Multimodal Reinforcement Learning with Agentic Verifier for AI Agents [131.46008226323423]
Argosは、エージェントタスクの推論モデルをトレーニングするための、原則化されたマルチモーダル報酬エージェントである。
エージェント検証をSFTデータとRLトレーニングの両方で活用することにより、我々のモデルは最先端の結果を得ることができる。
論文 参考訳(メタデータ) (2025-12-03T04:42:47Z) - COPO: Consistency-Aware Policy Optimization [17.328515578426227]
強化学習は、複雑な問題解決タスクにおける大規模言語モデル(LLM)の推論能力を大幅に向上させた。
近年、DeepSeek R1の導入により、ルールベースの報酬をコンピューティングの利点関数の低コストな代替手段として活用し、ポリシー最適化を導くことへの関心が高まっている。
本稿では,結果整合性に基づくグローバルな報酬構造を導入する,整合性を考慮したポリシー最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-06T07:05:18Z) - Good Learners Think Their Thinking: Generative PRM Makes Large Reasoning Model More Efficient Math Learner [31.033131727230277]
大規模推論モデル(LRM)は、Reinforcement Learning (RL) で最適化された複雑な数学問題の解法において、最近約束されている。
本稿では,RLに基づく学習における大きなボトルネックに対処するため,思考レベルで機能する固有信号駆動型生成過程評価機構を提案する。
1.5B と 7B のパラメータ LRM を用いた実験により,結果のみの報酬ベースラインよりもトレーニングサンプルが有意に少ない問題解精度が得られた。
論文 参考訳(メタデータ) (2025-07-31T07:54:58Z) - LIRE: listwise reward enhancement for preference alignment [27.50204023448716]
本稿では、複数の応答のオフライン報酬を合理化されたリストワイズフレームワークに組み込む、勾配に基づく報酬最適化手法を提案する。
LIREは実装が簡単で、最小限のパラメータチューニングを必要とし、ペアワイズパラダイムとシームレスに整合する。
実験の結果,LIREは対話タスクや要約タスクのベンチマークにおいて,既存のメソッドよりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-22T10:21:50Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。