論文の概要: Evaluation-driven Scaling for Scientific Discovery
- arxiv url: http://arxiv.org/abs/2604.19341v1
- Date: Tue, 21 Apr 2026 11:24:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.736307
- Title: Evaluation-driven Scaling for Scientific Discovery
- Title(参考訳): 科学的発見のための評価駆動スケーリング
- Authors: Haotian Ye, Haowei Lin, Jingyi Tang, Yizhen Luo, Caiyin Yang, Chang Su, Rahul Thapa, Rui Yang, Ruihua Liu, Zeyu Li, Chong Gao, Dachao Ding, Guangrong He, Miaolei Zhang, Lina Sun, Wenyang Wang, Yuchen Zhong, Zhuohao Shen, Di He, Jianzhu Ma, Stefano Ermon, Tongyang Li, Xiaowen Chu, James Zou, Yuzhi Xu,
- Abstract要約: 並列探索,フィードバック駆動の洗練,局所選択を組み合わせた,シンプルなテスト時間評価駆動スケーリング(SimpleTES)を紹介した。
適切な次元に沿って評価駆動の発見ループをスケールすることで、かなりの利益が得られます。
本研究は, 科学的発見を進展させる中心軸として, 効果的な評価駆動型ループスケーリングを確立した。
- 参考スコア(独自算出の注目度): 77.20820317940581
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Language models are increasingly used in scientific discovery to generate hypotheses, propose candidate solutions, implement systems, and iteratively refine them. At the core of these trial-and-error loops lies evaluation: the process of obtaining feedback on candidate solutions via verifiers, simulators, or task-specific scoring functions. While prior work has highlighted the importance of evaluation, it has not explicitly formulated the problem of how evaluation-driven discovery loops can be scaled up in a principled and effective manner to push the boundaries of scientific discovery, a problem this paper seeks to address. We introduce Simple Test-time Evaluation-driven Scaling (SimpleTES), a general framework that strategically combines parallel exploration, feedback-driven refinement, and local selection, revealing substantial gains unlocked by scaling evaluation-driven discovery loops along the right dimensions. Across 21 scientific problems spanning six domains, SimpleTES discovers state-of-the-art solutions using gpt-oss models, consistently outperforming both frontier-model baselines and sophisticated optimization pipelines. Particularly, we sped up the widely used LASSO algorithm by over 2x, designed quantum circuit routing policies that reduce gate overhead by 24.5%, and discovered new Erdos minimum overlap constructions that surpass the best-known results. Beyond novel discoveries, SimpleTES produces trajectory-level histories that naturally supervise feedback-driven learning. When post-trained on successful trajectories, models not only improve efficiency on seen problems but also generalize to unseen problems, discovering solutions that base models fail to uncover. Together, our results establish effective evaluation-driven loop scaling as a central axis for advancing LLM-driven scientific discovery, and provide a simple yet practical framework for realizing these gains.
- Abstract(参考訳): 言語モデルは、仮説の生成、候補解の提案、システムの実装、それらを反復的に洗練するために、科学的発見にますます使われている。
これらの試行錯誤ループの中核は、検証器、シミュレータ、タスク固有のスコアリング機能を通じて、候補ソリューションに対するフィードバックを得るプロセスである。
従来の研究は評価の重要性を強調してきたが、科学的な発見の境界を押し上げるために、評価駆動の発見ループを原則的かつ効果的な方法でスケールアップする方法の問題を明確に定式化していない。
私たちはSimple Test-time Evaluation-driven Scaling (SimpleTES)を紹介した。これは並列探索、フィードバック駆動の洗練、局所的な選択を戦略的に組み合わせた一般的なフレームワークで、評価駆動の発見ループを適切な次元に沿ってスケールすることで、かなりの利益が得られます。
6つの領域にまたがる21の科学的問題に対して、SimpleTESはgpt-ossモデルを使用して最先端のソリューションを発見し、フロンティアモデルベースラインと高度な最適化パイプラインの両方を一貫して上回っている。
特に、広く使われているLASSOアルゴリズムを2倍に高速化し、ゲートオーバヘッドを24.5%削減する量子回路ルーティングポリシーを設計し、最もよく知られた結果を超える新しいエルドス最小重複構造を発見した。
新たな発見の他に、SimpleTESは、フィードバック駆動学習を自然に監督する軌道レベルの履歴を生成する。
軌道上での後の訓練では、モデルは目に見えない問題に対して効率を向上するだけでなく、目に見えない問題にも一般化し、ベースモデルが発見できない解を発見する。
その結果,LLMによる科学的発見を進展させる中心軸として,効果的な評価駆動型ループスケーリングが確立され,これらの成果を実現するためのシンプルかつ実用的なフレームワークが提供される。
関連論文リスト
- Implementing Robust M-Estimators with Certifiable Factor Graph Optimization [5.293483842121928]
ロボット工学における因子グラフに基づく推定のための適応的再重み付け手法を開発した。
内部のサブプロブレムに対して、確実に正しい解法を組み込んだM推定器を容易に実装できることを示す。
論文 参考訳(メタデータ) (2026-03-21T20:17:44Z) - AlphaResearch: Accelerating New Algorithm Discovery with Language Models [60.502137348923156]
大規模言語モデルは複雑だが検証が容易な問題において大きな進歩を遂げてきたが、未知の発見に苦戦している。
オープンエンド問題に対する新しいアルゴリズムの発見を目的とした,自律型研究エージェントである textbfAlphaResearch を提示する。
論文 参考訳(メタデータ) (2025-11-11T18:03:22Z) - An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - Routing Arena: A Benchmark Suite for Neural Routing Solvers [8.158770689562672]
本稿では,一貫した評価のシームレスな統合と,機械学習とオペレーション研究の分野で広く普及しているベースラインとベンチマークの提供を提供する,ルーティング問題のためのベンチマークスイートを提案する。
総合的な第1の実験的な評価は、最新のオペレーショナル・リサーチ・ソルバが、車両のルーティング問題に関して、ソリューションの品質と実行効率の観点から、最先端の結果を生成することを示した。
論文 参考訳(メタデータ) (2023-10-06T10:24:33Z) - Multivariate Time Series Anomaly Detection: Fancy Algorithms and Flawed
Evaluation Methodology [2.043517674271996]
本稿では、MVTS異常検出の文脈において、正常によいプロトコルが弱点を持つ可能性について論じる。
本稿では,PCA(Principal Components Analysis)に基づくシンプルな,かつ難しいベースラインを提案する。このベースラインは,最近のDeep Learning(DL)ベースのアプローチにおいて,一般的なベンチマークデータセットよりも驚くほど優れています。
論文 参考訳(メタデータ) (2023-08-24T20:24:12Z) - Accelerating Inverse Learning via Intelligent Localization with
Exploratory Sampling [1.5976506570992293]
逆問題の解決は 物質と薬物発見の 長年の課題です
近年,逆問題の解法として深部生成モデルが提案されている。
逆学習を高速化する新しい手法(iPage)を提案する。
論文 参考訳(メタデータ) (2022-12-02T08:00:04Z) - Neural Improvement Heuristics for Graph Combinatorial Optimization
Problems [49.85111302670361]
本稿では,ノード,エッジ,あるいはその両方に情報をエンコードするグラフベースの問題を扱う新しいニューラル改善(NI)モデルを提案する。
提案モデルは,各地区の操作の選択を誘導する丘登頂に基づくアルゴリズムの基本的な構成要素として機能する。
論文 参考訳(メタデータ) (2022-06-01T10:35:29Z) - Large-Scale Sequential Learning for Recommender and Engineering Systems [91.3755431537592]
本稿では,現在の状況に適応してパーソナライズされたランキングを提供する自動アルゴリズムの設計に焦点を当てる。
前者はSAROSと呼ばれる新しいアルゴリズムを提案し,インタラクションの順序を学習するためのフィードバックの種類を考慮に入れている。
提案手法は, 電力網の故障検出に対する初期アプローチと比較して, 統計的に有意な結果を示す。
論文 参考訳(メタデータ) (2022-05-13T21:09:41Z) - RL-PGO: Reinforcement Learning-based Planar Pose-Graph Optimization [1.4884785898657995]
本稿では,最新のDeep Reinforcement Learning (DRL) ベースの環境と2次元ポーズグラフ最適化のためのエージェントを提案する。
本研究では、ポーズグラフ最適化問題を部分的に観測可能な決定プロセスとしてモデル化し、実世界および合成データセットの性能を評価することを実証する。
論文 参考訳(メタデータ) (2022-02-26T20:10:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。