論文の概要: e3: Learning to Explore Enables Extrapolation of Test-Time Compute for LLMs
- arxiv url: http://arxiv.org/abs/2506.09026v1
- Date: Tue, 10 Jun 2025 17:52:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:43.056442
- Title: e3: Learning to Explore Enables Extrapolation of Test-Time Compute for LLMs
- Title(参考訳): e3: LLMのテスト時間計算の補間を可能にすることを学ぶ
- Authors: Amrith Setlur, Matthew Y. R. Yang, Charlie Snell, Jeremy Greer, Ian Wu, Virginia Smith, Max Simchowitz, Aviral Kumar,
- Abstract要約: 既存の推論モデルでは外挿がうまく行われていないことが示される。
レシピ e3 は AIME'25 と HMMT'25 のスコアに基づいて最もよく知られた 1.7B モデルを生成する。
e3-1.7Bモデルは、高いpass@1スコアを得るだけでなく、ベースモデルよりもpass@kを改善する。
- 参考スコア(独自算出の注目度): 49.01449646799905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time scaling offers a promising path to improve LLM reasoning by utilizing more compute at inference time; however, the true promise of this paradigm lies in extrapolation (i.e., improvement in performance on hard problems as LLMs keep "thinking" for longer, beyond the maximum token budget they were trained on). Surprisingly, we find that most existing reasoning models do not extrapolate well. We show that one way to enable extrapolation is by training the LLM to perform in-context exploration: training the LLM to effectively spend its test time budget by chaining operations (such as generation, verification, refinement, etc.), or testing multiple hypotheses before it commits to an answer. To enable in-context exploration, we identify three key ingredients as part of our recipe e3: (1) chaining skills that the base LLM has asymmetric competence in, e.g., chaining verification (easy) with generation (hard), as a way to implement in-context search; (2) leveraging "negative" gradients from incorrect traces to amplify exploration during RL, resulting in longer search traces that chains additional asymmetries; and (3) coupling task difficulty with training token budget during training via a specifically-designed curriculum to structure in-context exploration. Our recipe e3 produces the best known 1.7B model according to AIME'25 and HMMT'25 scores, and extrapolates to 2x the training token budget. Our e3-1.7B model not only attains high pass@1 scores, but also improves pass@k over the base model.
- Abstract(参考訳): テストタイムスケーリングは、推論時により多くの計算を活用することでLCM推論を改善するための有望な道を提供するが、このパラダイムの真の約束は外挿にある(すなわち、LLMが訓練された最大トークン予算を超えて、より長く「考え続ける」ため、難しい問題におけるパフォーマンスの改善)。
驚くべきことに、既存の推論モデルはよく外挿されていない。
補間を可能にする方法の1つは、LLMがコンテキスト内探索を行うように訓練することであり、LCMは、(生成、検証、洗練など)操作を連鎖させることで、効果的にテスト時間予算を費やすように訓練するか、あるいは、その答えをコミットする前に複数の仮説をテストすることである。
インコンテクスト探索を可能にするため,本手法では,(1)LLMの非対称能力(例えば,世代(ハード)によるチェアリング検証(easy))、(2)RLにおける探索を増幅する不正トレースからの"負"勾配の活用,(3)追加のアシンメトリを連鎖する検索トレースの延長,(3)特別に設計されたカリキュラムによるインコンテクスト探索のトレーニング中にトークン予算のトレーニングを行うことの難しさ,という3つの重要な要素を,レシピe3の一部として同定する。
我々のレシピ e3 は AIME'25 と HMMT'25 のスコアで最もよく知られた 1.7B モデルを生成し,トレーニングトークン予算の 2 倍まで外挿する。
e3-1.7Bモデルは、高いpass@1スコアを得るだけでなく、ベースモデルよりもpass@kを改善する。
関連論文リスト
- Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning [52.32193550674408]
強化学習(RL)による言語モデルの推論能力の向上を目指す。
我々は,LLMが徐々に推論スキルを構築できるように,タスクを簡単から困難(E2H)にスケジュールすることを提案する。
E2H Reasonerは小型LLM(1.5B〜3B)の推論能力を著しく改善する
論文 参考訳(メタデータ) (2025-06-07T02:41:54Z) - Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
エージェント検索フレームワークであるEXSEARCHを提案する。
4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-26T15:27:55Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - On the Emergence of Thinking in LLMs I: Searching for the Right Intuition [34.32871896067864]
自己学習による強化学習(RLSP)というポストトレーニングフレームワークを提案する。
RLSPは、推論プロセスの人間または合成的なデモンストレーションによる微調整、多種多様な効率的な推論行動を促進するための探索報酬信号の使用、報酬ハッキングを予防しながら正当性を確保するための結果検証器によるRLトレーニングの3段階を含む。
数学領域における実証的研究は、RLSPが推論を改善することを示している。
論文 参考訳(メタデータ) (2025-02-10T18:52:04Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。