論文の概要: ThetaEvolve: Test-time Learning on Open Problems
- arxiv url: http://arxiv.org/abs/2511.23473v1
- Date: Fri, 28 Nov 2025 18:58:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:56.036724
- Title: ThetaEvolve: Test-time Learning on Open Problems
- Title(参考訳): ThetaEvolve: オープンな問題に対するテストタイムの学習
- Authors: Yiping Wang, Shao-Rong Su, Zhiyuan Zeng, Eva Xu, Liliang Ren, Xinyu Yang, Zeyi Huang, Xuehai He, Luyao Ma, Baolin Peng, Hao Cheng, Pengcheng He, Weizhu Chen, Shuohang Wang, Simon Shaolei Du, Yelong Shen,
- Abstract要約: In-context LearningとReinforcement Learning(RL)の両方をテスト時に効率的にスケールするために、AlphaEvolveを単純化し拡張するオープンソースのフレームワークであるThetaEvolveを紹介します。
テスト時にRLを使用するThetaEvolveは、推論のみのベースラインよりも一貫して優れています。
- 参考スコア(独自算出の注目度): 110.5756538358217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have enabled breakthroughs in mathematical discovery, exemplified by AlphaEvolve, a closed-source system that evolves programs to improve bounds on open problems. However, it relies on ensembles of frontier LLMs to achieve new bounds and is a pure inference system that models cannot internalize the evolving strategies. We introduce ThetaEvolve, an open-source framework that simplifies and extends AlphaEvolve to efficiently scale both in-context learning and Reinforcement Learning (RL) at test time, allowing models to continually learn from their experiences in improving open optimization problems. ThetaEvolve features a single LLM, a large program database for enhanced exploration, batch sampling for higher throughput, lazy penalties to discourage stagnant outputs, and optional reward shaping for stable training signals, etc. ThetaEvolve is the first evolving framework that enable a small open-source model, like DeepSeek-R1-0528-Qwen3-8B, to achieve new best-known bounds on open problems (circle packing and first auto-correlation inequality) mentioned in AlphaEvolve. Besides, across two models and four open tasks, we find that ThetaEvolve with RL at test-time consistently outperforms inference-only baselines, and the model indeed learns evolving capabilities, as the RL-trained checkpoints demonstrate faster progress and better final performance on both trained target task and other unseen tasks. We release our code publicly: https://github.com/ypwang61/ThetaEvolve
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、オープンな問題の境界を改善するためにプログラムを進化させるクローズドソースシステムであるAlphaEvolveによって実証された数学的発見のブレークスルーを可能にしている。
しかし、これは新しい境界を達成するためにフロンティア LLM のアンサンブルに依存しており、モデルが進化する戦略を内部化できない純粋な推論システムである。
In-context LearningとReinforcement Learning(RL)の両方をテスト時に効率的にスケールするために、AlphaEvolveを単純化し拡張するオープンソースのフレームワークであるThetaEvolveを紹介します。
ThetaEvolveには、単一のLSM、探索強化のための大規模なプログラムデータベース、高いスループットのためのバッチサンプリング、停滞する出力を回避するための遅延ペナルティ、安定したトレーニング信号のためのオプションの報酬シェーピングなどが含まれている。
ThetaEvolveは、DeepSeek-R1-0528-Qwen3-8Bのような小さなオープンソースモデルで、AlphaEvolveで言及されているオープンな問題(循環パッキングと最初の自己相関不等式)に最もよく知られた境界を達成できる、最初の進化型フレームワークである。
さらに、2つのモデルと4つのオープンタスクの間で、テスト時にRLを併用したThetaEvolveは推論のみのベースラインを一貫して上回り、RLが学習したチェックポイントは、トレーニング対象タスクと他の未確認タスクの両方において、より高速な進捗と最終的なパフォーマンスを示すため、モデルが実際に進化する能力を学ぶ。
コードを公開しています。 https://github.com/ypwang61/ThetaEvolve
関連論文リスト
- EvoLMM: Self-Evolving Large Multimodal Models with Continuous Rewards [52.42920996842378]
本稿では,1つのバックボーンモデルから2つの協調エージェントをインスタンス化する自己進化型フレームワークEvoLMMを提案する。
この動的なフィードバックは、情報的クエリの生成と構造化推論の洗練の両方を促進する。
私たちのコードとモデルはhttps://github.com/mbzuai-oryx/EvoLMMで公開されています。
論文 参考訳(メタデータ) (2025-11-20T18:59:54Z) - GigaEvo: An Open Source Optimization Framework Powered By LLMs And Evolution Algorithms [7.228213026504935]
GigaEvoはオープンソースのフレームワークで、研究者はLLM-進化のハイブリッドアプローチを研究、実験することができる。
今後の研究を支援するために,システムアーキテクチャ,実装決定,実験方法論の詳細な説明を行う。
論文 参考訳(メタデータ) (2025-11-17T14:44:47Z) - Scientific Algorithm Discovery by Augmenting AlphaEvolve with Deep Research [23.532524147608253]
本稿では、ディープリサーチとアルゴリズムの進化を統合するエージェントであるDeepEvolveを紹介する。
それぞれが新しい仮説を提案するだけでなく、改良、実装、テストも提案し、浅い改善と非生産的な過剰精製の両方を避けている。
化学、数学、生物学、材料、特許の9つのベンチマークで、DeepEvolveは初期アルゴリズムを一貫して改善している。
論文 参考訳(メタデータ) (2025-10-07T15:49:51Z) - MCCE: A Framework for Multi-LLM Collaborative Co-Evolution [17.41200156551317]
多目的離散最適化問題は、その広大かつ非構造的な空間のために重大な問題を引き起こす。
大規模言語モデル(LLM)は、強力な先行と推論能力を提供し、専門家の知識が重要となると自然にします。
我々は,凍結したオープンソースLCMと軽量なトレーニングモデルを組み合わせたハイブリッドフレームワークであるMulti-LLM Collaborative Co-evolutionを紹介する。
論文 参考訳(メタデータ) (2025-10-06T10:03:28Z) - Evolving Language Models without Labels: Majority Drives Selection, Novelty Promotes Variation [74.75716642635484]
大規模言語モデル(LLM)は、検証可能な報酬(RLVR)からの強化学習でますます訓練されている
本稿では,ラベルのないフレームワークEVOL-RLを提案する。
EVOL-RLは、多数派のみのベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-09-18T17:50:04Z) - AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning [129.44038804430542]
本稿では,マルチターン対話型意思決定のためのLLMエージェントをRLで学習する新しいフレームワークであるAgentGym-RLを紹介する。
本研究では,探索-探索バランスと安定したRL最適化のためのトレーニング手法であるScalingInter-RLを提案する。
当社のエージェントは、さまざまな環境にまたがる27のタスクで、商用モデルにマッチするか、超えています。
論文 参考訳(メタデータ) (2025-09-10T16:46:11Z) - EvoCoT: Overcoming the Exploration Bottleneck in Reinforcement Learning [25.518032764227442]
検証可能な報酬付き強化学習(RLVR)は,大規模言語モデル(LLM)を学習後,推論能力を向上させる上で有望なパラダイムとなっている。
本稿では,2段階チェーン・オブ・シークレット(CoT)推論最適化に基づく自己進化型カリキュラム学習フレームワークであるEvoCoTを提案する。
EvoCoTは、CoT軌道の自己生成と検証によって探索空間を制約し、その後徐々にCoTステップを短縮し、空間を制御された方法で拡張する。
論文 参考訳(メタデータ) (2025-08-11T09:49:01Z) - MM-Eureka: Exploring the Frontiers of Multimodal Reasoning with Rule-based Reinforcement Learning [55.82649731348012]
MMK12データセットとMM-EUREKAを7B,32Bパラメータで導入する。
前者は、人間の検証された答えと解法を含む多様な知識領域を特徴とする高品質なマルチモーダル数学推論データセットである。
後者は,オンラインフィルタリングを利用したルールベース強化学習と,トレーニング安定性を高めるための2段階トレーニング戦略を用いたマルチモーダルモデルである。
論文 参考訳(メタデータ) (2025-03-10T14:23:12Z) - A Survey on Self-Evolution of Large Language Models [116.54238664264928]
大規模言語モデル(LLM)は、様々な分野やインテリジェントエージェントアプリケーションにおいて大きく進歩している。
この問題に対処するために、LLMが自律的に獲得し、洗練し、モデル自身によって生成された経験から学ぶことができる自己進化的アプローチが急速に成長している。
論文 参考訳(メタデータ) (2024-04-22T17:43:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。