論文の概要: Teaching Language Models to Forecast Research Success Through Comparative Idea Evaluation
- arxiv url: http://arxiv.org/abs/2605.21491v1
- Date: Mon, 06 Apr 2026 19:03:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.978843
- Title: Teaching Language Models to Forecast Research Success Through Comparative Idea Evaluation
- Title(参考訳): 比較理想評価による研究成果予測のための言語モデルの構築
- Authors: Srujan P Mule, Aniketh Garikaparthi, Manasi Patwardhan,
- Abstract要約: PapersWithCodeの客観的な結果に基づいて,11,488のアイデアペアのデータセットを構築した。
我々は、潜在的推論経路を発見するためにモデルを訓練し、解釈可能な正当化で71.35%を達成した。
この結果から,計算効率のよい小言語モデルが,有効で客観的な検証手段として有効であることが示唆された。
- 参考スコア(独自算出の注目度): 4.702729080310267
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As language models accelerate scientific research by automating hypothesis generation and implementation, a new bottleneck emerges: evaluating and filtering hundreds of AI-generated ideas without exhaustive experimentation. We ask whether LMs can learn to forecast the empirical success of research ideas before any experiments are run. We study comparative empirical forecasting: given a benchmark-specific research goal and two candidate ideas, predict which will achieve better benchmark performance. We construct a dataset of 11,488 idea pairs grounded in objective outcomes from PapersWithCode. While off-the-shelf 8B-parameter models struggle (30% acc.), SFT dramatically boosts performance to 77.1%, outperforming GPT-5 (61.1%). By framing evaluation as a reasoning task via Reinforcement Learning with Verifiable Rewards (RLVR), we train models to discover latent reasoning paths, achieving 71.35% acc. with interpretable justifications. Through additional ablations and out-of-distribution tests, we show robustness to surface-level heuristics and transfer to both a cross-domain time-split test set and an independently constructed test set. Our results demonstrate that compute-efficient small language models can serve as effective, objective verifiers, offering a scalable path for autonomous scientific discovery.
- Abstract(参考訳): 言語モデルが仮説生成と実装を自動化することによって科学研究を加速するにつれ、新たなボトルネックが出現する。
実験が実施される前に、LMが研究アイデアの実証的な成功を予測できるかどうかを問う。
ベンチマーク固有の研究目標と候補となる2つのアイデアから、どのベンチマーク性能が向上するかを予測する。
我々はPapersWithCodeの客観的な結果に基づいて,11,488のアイデアペアのデータセットを構築した。
市販の8Bパラメーターモデルでは30%のシェアで苦戦する一方、SFTはパフォーマンスを77.1%まで劇的に向上させ、GPT-5(61.1%)を上回った。
Reinforcement Learning with Verifiable Rewards (RLVR) を通じて推論タスクとしての評価をフレーミングすることにより、潜在推論経路を発見するためにモデルを訓練し、71.35%の精度を達成した。
解釈可能な正当化で
追加のアブレーションとアウト・オブ・ディストリビューションテストにより、表面レベルのヒューリスティックに堅牢性を示し、クロスドメインのタイムスプリットテストセットと独立に構築されたテストセットの両方に転送する。
この結果から,計算効率のよい小言語モデルは,自律的な科学的発見のためのスケーラブルな経路を提供する,効果的で客観的な検証手段として有効であることが示された。
関連論文リスト
- Learning to Predict Future-Aligned Research Proposals with Language Models [59.79457676644722]
我々は目標から得られた17,771の論文とそれらの事前カットオフ引用の時間一貫性のあるデータセットを構築した。
モデルをトレーニングするために、ターゲットとそれらのカットオフ前の引用から17,771枚のタイム一貫性のあるデータセットを構築します。
Llama-3.1 と Qwen2.5 のモデル全体で、将来のアライメントチューニングは、非アライメントベースラインに対する将来のアライメントを改善する。
論文 参考訳(メタデータ) (2026-03-28T05:41:15Z) - GUIDE: Towards Scalable Advising for Research Ideas [29.754833632647195]
提案する仮説と実験設計を洗練するための,高品質で適切なフィードバックを提供するシステムを開発した。
提案方式は, ICLR 2025テストセットで90%を超える受入率を達成する。
論文 参考訳(メタデータ) (2025-07-09T17:59:21Z) - Dissecting Long-Chain-of-Thought Reasoning Models: An Empirical Study [91.78803511141975]
この研究は、強化学習のスケーリングにおける正と負のサンプルの役割に焦点を当てている。
グループ相対的政策最適化において、サンプルの半数以上がゼロの優位性を持つような実質的なデータ非効率性を同定する。
本研究では,様々な推論モデルとベンチマークの不安定な性能について検討し,不明瞭な結果を伴う不確実な問題に対する不安定性について考察した。
論文 参考訳(メタデータ) (2025-06-05T11:47:10Z) - Predicting Empirical AI Research Outcomes with Language Models [27.148683265085012]
AI研究における有望なアイデアの多くは提供されないが、その検証には相当な人的労力と計算が必要だ。
このタスクの最初のベンチマークを構築し、LMと人間の専門家を比較します。
私たちはカンファレンス論文からアイデアと実験結果を取り除き、ベースモデルがテストの切り離し日後に公表された1,585人の人間による検証されたアイデアペアを生成しました。
我々は,精巧なGPT-4.1と紙検索エージェントを組み合わせたシステムを開発し,25人の人間専門家を雇って比較する。
NLP領域では、我々のシステムは人間の専門家を64.4%対48.で破る。
論文 参考訳(メタデータ) (2025-06-01T02:46:31Z) - The Surprising Effectiveness of Test-Time Training for Few-Shot Learning [59.309477460893916]
言語モデル(LM)は、トレーニングディストリビューション内のタスクにおいて印象的なパフォーマンスを示しているが、しばしば構造的に新しいタスクで苦労している。
LMの推論と少数ショット学習能力を改善するメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
本研究は,新しいタスクにおける文脈内学習の限界を強調し,言語モデルの適応性を高めるためのテストタイムトレーニングの可能性を示した。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - TFG: Unified Training-Free Guidance for Diffusion Models [82.14536097768632]
トレーニング不要のガイダンスは、追加のトレーニングなしで望ましい目標特性を持つサンプルを生成することができる。
既存の手法は様々な個別の用途で有効であるが、理論的な根拠と広範囲なベンチマークでの厳密な試験が欠如していることが多い。
本稿では,既存の手法を特殊な事例として包含する新しいアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:31:17Z) - Predicting Performance for Natural Language Processing Tasks [128.34208911925424]
実験条件を入力として,NLP実験の評価スコアを予測する回帰モデルを構築した。
9つの異なるNLPタスクを実験した結果、予測器は目に見えない言語や異なるモデリングアーキテクチャに対して有意義な予測を生成できることがわかった。
論文 参考訳(メタデータ) (2020-05-02T16:02:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。