論文の概要: Representation-Based Exploration for Language Models: From Test-Time to Post-Training
- arxiv url: http://arxiv.org/abs/2510.11686v1
- Date: Mon, 13 Oct 2025 17:49:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.49176
- Title: Representation-Based Exploration for Language Models: From Test-Time to Post-Training
- Title(参考訳): 言語モデルのための表現に基づく探索:テスト時間から訓練後まで
- Authors: Jens Tuyls, Dylan J. Foster, Akshay Krishnamurthy, Jordan T. Ash,
- Abstract要約: 強化学習(RL)は、言語モデルの能力を拡張することを約束する。
現在のRL技術が新しい行動の発見を促進するのか、あるいは単にベースモデルにすでに存在するものを研ぎ澄ましているのかは不明だ。
我々は、意図的な探索の価値を調査し、新しい多様な行動を発見するためのモデルを明確にインセンティブ付けする。
- 参考スコア(独自算出の注目度): 50.144031964319424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) promises to expand the capabilities of language models, but it is unclear if current RL techniques promote the discovery of novel behaviors, or simply sharpen those already present in the base model. In this paper, we investigate the value of deliberate exploration -- explicitly incentivizing the model to discover novel and diverse behaviors -- and aim to understand how the knowledge in pre-trained models can guide this search. Our main finding is that exploration with a simple, principled, representation-based bonus derived from the pre-trained language model's hidden states significantly improves diversity and pass@k rates -- both for post-training, and in a novel inference-time scaling setting we introduce. For inference-time, exploration with representation-based diversity improves efficiency, consistently improving pass@k rates across a variety of models and reasoning tasks. For example, for Qwen-2.5-14b-Instruct we obtain over 50% improvement in verifier efficiency on almost all tasks. For post-training, we show that integrating this exploration strategy into an RL pipeline improves reasoning performance over that of the initial model and over standard RL post-training. For example, on AIME 2024, our post-trained Qwen-2.5-7b-Instruct's pass@80 matches the pass@256 of GRPO on the same model, demonstrating a 3x improvement in test-time sample efficiency. Overall, our findings suggest that deliberate exploration -- with the right notion of diversity -- is a practical path toward discovery of new behaviors beyond sharpening.
- Abstract(参考訳): 強化学習(RL)は言語モデルの能力の拡大を約束するが、現在のRL技術が新しい行動の発見を促進するか、あるいは単にベースモデルに存在するものを研ぎ澄ますかは定かではない。
本稿では,意図的な探索の価値について検討し,モデルが新規で多様な行動を発見することの動機付けを明確にし,事前学習したモデルにおける知識がどのように探索を導くかを理解することを目的とする。
我々の主な発見は、事前訓練された言語モデルの隠れ状態から導かれる単純で原則化された表現に基づくボーナスによる探索が、ポストトレーニングと新しい推論時間スケーリング設定の両方において、多様性とpass@kレートを大幅に改善するということです。
推論時間では、表現に基づく多様性による探索が効率を改善し、さまざまなモデルや推論タスクにおけるpass@kレートを一貫して改善する。
例えば、Qwen-2.5-14b-Instructでは、ほぼ全てのタスクにおいて検証効率が50%以上向上する。
ポストトレーニングでは、この探索戦略をRLパイプラインに統合することで、初期モデルや標準RLポストトレーニングよりも推論性能が向上することを示す。
例えば、AIME 2024では、ポストトレーニング後のQwen-2.5-7b-Instructのpass@80とGRPOのpass@256が同じモデルで一致し、テスト時間サンプル効率が3倍改善されたことが示されています。
全体的に見れば、意図的な探索(多様性の正しい概念)は、鋭いもの以外の新しい行動の発見への実践的な道のりであることを示唆している。
関連論文リスト
- Outcome-based Exploration for LLM Reasoning [18.33816564983908]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルの推論能力を向上させる強力な手法として登場した。
ベースモデルに対するトレーニングセットにおいても,RLは効果的な多様性を低下させることができることを示す。
最終結果に応じて探索ボーナスを割り当てる結果に基づく探索を提案する。
論文 参考訳(メタデータ) (2025-09-08T17:52:56Z) - ExPO: Unlocking Hard Reasoning with Self-Explanation-Guided Reinforcement Learning [12.83211408922535]
強化学習スタイルのポストトレーニングは、報酬や選好信号に基づいてモデル出力を最適化することで推論を改善する。
GRPOスタイルのアプローチでは、結果ベースの検証によってラベル付けされた自己生成サンプルを使用することでこれを実装している。
提案手法は, 基本的回答を条件に, 単純でモジュール化されたフレームワークである。
論文 参考訳(メタデータ) (2025-07-03T17:44:55Z) - ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models [89.37819814048288]
本稿では,KL分散制御,参照ポリシ,多様なタスクスイートを取り入れた新しいトレーニング手法であるProRLを紹介する。
我々の経験的分析により、RL学習モデルは、広範囲のpass@k評価において、ベースリセットモデルよりも一貫して優れていたことが明らかとなった。
これらの知見は、RLが言語モデルにおける推論境界を有意に拡張する条件について、新たな洞察を与える。
論文 参考訳(メタデータ) (2025-05-30T17:59:01Z) - RAST: Reasoning Activation in LLMs via Small-model Transfer [33.32587030836428]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なアプローチとなっている。
大規模にRLを適用することは、潜在的にリソース集約であり、複数のモデルコピーと広範なGPUワークロードを必要とします。
本稿では、RL学習モデルからRL学習モデルからより大規模なモデルにRL誘導確率調整を注入することにより、推論挙動を伝達する簡易かつ効果的なRASTを提案する。
論文 参考訳(メタデータ) (2025-05-30T17:57:08Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - An Empirical Study on Eliciting and Improving R1-like Reasoning Models [90.52239241349504]
RLトレーニングのスケーリングは、そのような推論モデルを実装するための中心的なテクニックとなっている。
我々のRLトレーニングアプローチはQwen2.5-32Bベースモデルを継続的に改善することを示した。
また、ツール操作の利用についても検討し、大きな推論モデルの推論性能を大幅に向上させることを見出した。
論文 参考訳(メタデータ) (2025-03-06T15:34:27Z) - The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。