論文の概要: Training AI Co-Scientists Using Rubric Rewards
- arxiv url: http://arxiv.org/abs/2512.23707v1
- Date: Mon, 29 Dec 2025 18:59:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.624806
- Title: Training AI Co-Scientists Using Rubric Rewards
- Title(参考訳): ルーブリック・リワードを用いたAI共同研究者の育成
- Authors: Shashwat Goel, Rishi Hazra, Dulhan Jayalath, Timon Willi, Parag Jain, William F. Shen, Ilias Leontiadis, Francesco Barbieri, Yoram Bachrach, Jonas Geiping, Chenxi Whitehouse,
- Abstract要約: AIの共同研究者の重要な特徴は、目的と制約のセットから研究計画を生成する能力である。
本研究では,既存の研究論文の膨大なコーパスを活用して,より良い研究計画を生み出す言語モデルを訓練する方法について検討する。
複数のドメインにわたる論文から研究目標と目標固有のグルーブを自動抽出することで、スケーラブルで多様なトレーニングコーパスを構築します。
- 参考スコア(独自算出の注目度): 36.857905469178796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI co-scientists are emerging as a tool to assist human researchers in achieving their research goals. A crucial feature of these AI co-scientists is the ability to generate a research plan given a set of aims and constraints. The plan may be used by researchers for brainstorming, or may even be implemented after further refinement. However, language models currently struggle to generate research plans that follow all constraints and implicit requirements. In this work, we study how to leverage the vast corpus of existing research papers to train language models that generate better research plans. We build a scalable, diverse training corpus by automatically extracting research goals and goal-specific grading rubrics from papers across several domains. We then train models for research plan generation via reinforcement learning with self-grading. A frozen copy of the initial policy acts as the grader during training, with the rubrics creating a generator-verifier gap that enables improvements without external human supervision. To validate this approach, we conduct a study with human experts for machine learning research goals, spanning 225 hours. The experts prefer plans generated by our finetuned Qwen3-30B-A3B model over the initial model for 70% of research goals, and approve 84% of the automatically extracted goal-specific grading rubrics. To assess generality, we also extend our approach to research goals from medical papers, and new arXiv preprints, evaluating with a jury of frontier models. Our finetuning yields 12-22% relative improvements and significant cross-domain generalization, proving effective even in problem settings like medical research where execution feedback is infeasible. Together, these findings demonstrate the potential of a scalable, automated training recipe as a step towards improving general AI co-scientists.
- Abstract(参考訳): AIの共同研究者は、人間の研究者が研究目標を達成するのを助けるツールとして登場しつつある。
これらのAIの共同研究者の重要な特徴は、一連の目的と制約から研究計画を作成する能力である。
この計画は研究者によってブレインストーミングに利用したり、さらなる改良後に実施されることもある。
しかし、言語モデルは現在、すべての制約と暗黙の要求に従う研究計画を作成するのに苦労しています。
本研究では,既存の研究論文の膨大なコーパスを活用して,より良い研究計画を生み出す言語モデルを訓練する方法について検討する。
複数のドメインにわたる論文から研究目標と目標固有のグルーブを自動抽出することで、スケーラブルで多様なトレーニングコーパスを構築します。
次に、自己学習による強化学習を通じて、研究計画生成のためのモデルをトレーニングする。
初期ポリシーの凍結されたコピーは、トレーニング中にグレーダーとして機能し、ルーリックは外部の人間の監督なしに改善を可能にするジェネレータと検証器のギャップを創り出す。
このアプローチを検証するために、機械学習の研究目標について、人間の専門家と研究を行い、225時間に及ぶ。
専門家は、初期モデルよりもQwen3-30B-A3Bモデルで作成したプランを優先し、自動抽出されたゴール固有のグルーブの84%を承認した。
一般性を評価するため,医療論文や新たなarXivプレプリントによる研究目標へのアプローチも拡張し,フロンティアモデルの審査員による評価を行った。
我々の微調整は相対的な12~22%の改善とドメイン間一般化をもたらし、実行フィードバックが不可能な医療研究のような問題設定においても有効であることが証明された。
これらの発見は、一般的なAI共同研究者を改善するためのステップとして、スケーラブルで自動化されたトレーニングレシピの可能性を示している。
関連論文リスト
- From AutoRecSys to AutoRecLab: A Call to Build, Evaluate, and Govern Autonomous Recommender-Systems Research Labs [5.34658805289521]
狭義のAutoRecSysツールから、AutoRecLab(AutoRecLab)のAuto Recommender-Systems Research Labへの移行を議論する。
AutoRecLabは、問題アイデア、文献分析、実験的な設計と実行、結果解釈、原稿のドラフト、ロギングといったエンドツーエンドの自動化を統合している。
我々は、コミュニティの撤退を組織化し、次のステップを調整し、自動化された研究システムの責任を負うためのガイダンスを共同執筆する、という呼びかけで締めくくります。
論文 参考訳(メタデータ) (2025-10-20T20:58:50Z) - The Budget AI Researcher and the Power of RAG Chains [4.797627592793464]
研究アイデア生成への現在のアプローチは、しばしばジェネリック・大型言語モデル(LLM)に依存している。
私たちのフレームワークであるThe Budget AI Researcherは、検索強化ジェネレーションチェーン、ベクトルデータベース、トピック誘導ペアリングを使用して、数百の機械学習論文の概念を再結合します。
このシステムは、機械学習の広大なサブフィールドにまたがる9つの主要なAIカンファレンスから論文を取り込み、それらを階層的なトピックツリーに整理する。
論文 参考訳(メタデータ) (2025-06-14T02:40:35Z) - From Automation to Autonomy: A Survey on Large Language Models in Scientific Discovery [67.07598263346591]
大規模言語モデル(LLM)は科学的発見のパラダイムシフトを触媒している。
この調査は、この急成長する分野を体系的に分析し、科学におけるLLMの役割の変化とエスカレーション能力に重点を置いている。
論文 参考訳(メタデータ) (2025-05-19T15:41:32Z) - MLGym: A New Framework and Benchmark for Advancing AI Research Agents [51.9387884953294]
我々はMeta MLGymとMLGym-Benchを紹介した。これはAI研究タスクにおける大規模言語モデルの評価と開発のための新しいフレームワークとベンチマークである。
これは機械学習(ML)タスクのための最初のGym環境であり、そのようなエージェントをトレーニングするための強化学習(RL)アルゴリズムの研究を可能にする。
我々は、Claude-3.5-Sonnet、Llama-3.1 405B、GPT-4o、o1-preview、Gemini-1.5 Proなどのベンチマークで、多くのフロンティア大言語モデル(LLM)を評価した。
論文 参考訳(メタデータ) (2025-02-20T12:28:23Z) - CycleResearcher: Improving Automated Research via Automated Review [37.03497673861402]
本稿では,オープンソースの後学習型大規模言語モデル(LLM)を,自動研究とレビューの全サイクルを遂行する自律エージェントとして活用する可能性について検討する。
これらのモデルをトレーニングするために、現実の機械学習研究とピアレビューダイナミクスを反映した2つの新しいデータセットを開発した。
その結果,CycleReviewerは平均絶対誤差(MAE)を26.89%削減して有望な性能を達成できた。
論文 参考訳(メタデータ) (2024-10-28T08:10:21Z) - ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models [56.08917291606421]
ResearchAgentは、新しい作品のアイデアと運用のためのAIベースのシステムである。
ResearchAgentは、新しい問題を自動で定義し、手法と設計実験を提案し、繰り返し修正する。
我々は、複数の分野にわたる科学論文に関するResearchAgentを実験的に検証した。
論文 参考訳(メタデータ) (2024-04-11T13:36:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。