論文の概要: Temperature as a Meta-Policy: Adaptive Temperature in LLM Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.11779v1
- Date: Thu, 12 Feb 2026 09:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.758139
- Title: Temperature as a Meta-Policy: Adaptive Temperature in LLM Reinforcement Learning
- Title(参考訳): メタポリティクスとしての温度:LLM強化学習における適応温度
- Authors: Haoran Dang, Cuiling Lan, Hai Wan, Xibin Zhao, Yan Lu,
- Abstract要約: 大規模言語モデル(LLM)における探索と搾取のトレードオフの温度制御
高温は多様だがノイズの多い出力を奨励し、低温は集中した出力を生み出すが、早めの収束を引き起こす可能性がある。
本稿では,温度制御を学習可能なメタ政治として再放送する新しいフレームワークである温度適応メタポリシー最適化(TAMPO)を提案する。
- 参考スコア(独自算出の注目度): 47.83947232413507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temperature is a crucial hyperparameter in large language models (LLMs), controlling the trade-off between exploration and exploitation during text generation. High temperatures encourage diverse but noisy outputs, while low temperatures produce focused outputs but may cause premature convergence. Yet static or heuristic temperature schedules fail to adapt to the dynamic demands of reinforcement learning (RL) throughout training, often limiting policy improvement. We propose Temperature Adaptive Meta Policy Optimization (TAMPO), a new framework that recasts temperature control as a learnable meta-policy. TAMPO operates through a hierarchical two-loop process. In the inner loop, the LLM policy is updated (e.g., using GRPO) with trajectories sampled at the temperature selected by the meta-policy. In the outer loop, meta-policy updates the distribution over candidate temperatures by rewarding those that maximize the likelihood of high-advantage trajectories. This trajectory-guided, reward-driven mechanism enables online adaptation without additional rollouts, directly aligning exploration with policy improvement. On five mathematical reasoning benchmarks, TAMPO outperforms baselines using fixed or heuristic temperatures, establishing temperature as an effective learnable meta-policy for adaptive exploration in LLM reinforcement learning. Accepted at ICLR 2026.
- Abstract(参考訳): 温度は大規模言語モデル(LLM)において重要なハイパーパラメータであり、テキスト生成時の探索とエクスプロイトの間のトレードオフを制御する。
高温は多様だがノイズの多い出力を奨励し、低温は集中した出力を生み出すが、早めの収束を引き起こす可能性がある。
しかし、静的またはヒューリスティックな温度スケジュールは、訓練を通して強化学習(RL)の動的な要求に適応できず、しばしば政策改善を制限する。
本稿では,温度制御を学習可能なメタ政治として再放送する新しいフレームワークである温度適応メタポリシー最適化(TAMPO)を提案する。
TAMPOは階層的な2ループプロセスを通して動作する。
内ループでは、LLMポリシーが更新され(例えば、GRPOを用いて)、メタポリティクスによって選択された温度で軌道がサンプリングされる。
外側のループでは、メタ政治は、高付加性軌道の確率を最大化する者に報酬を与えることで、候補温度の分布を更新する。
この軌道誘導型報酬駆動機構は、追加のロールアウトなしでオンライン適応を可能にし、調査と政策改善を直接的に整合させる。
5つの数学的推論ベンチマークにおいて、TAMPOは、固定温度またはヒューリスティック温度を用いてベースラインを上回り、LLM強化学習における適応的な探索のための効果的な学習可能なメタ政治として温度を確立する。
2026年、ICLRに入社。
関連論文リスト
- Making Tunable Parameters State-Dependent in Weather and Climate Models with Reinforcement Learning [0.5131152350448099]
本研究は,パラメトリックスキームのコンポーネントをオンラインで学習するフレームワークを提案する。
理想的なテストベッドの階層にまたがって、結果のRL駆動パラメータの更新を評価する。
結果は、RLがスキリフルな状態依存とレギュラー対応のパラメトリを提供することを強調している。
論文 参考訳(メタデータ) (2026-01-07T11:19:16Z) - Let it Calm: Exploratory Annealed Decoding for Verifiable Reinforcement Learning [29.277754405630205]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるための強力なパラダイムである。
標準の固定温度サンプリングは単純であるが、高温がサンプルの品質を低下させ、低温が発見を制限するため、これらの競合する要求のバランスをとるのに苦労している。
我々は、早期トークンに最も影響のある探索的アニールデコーディング(EAD)という、よりシンプルで効果的な戦略を提案する。
論文 参考訳(メタデータ) (2025-10-06T18:15:43Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - TempSamp-R1: Effective Temporal Sampling with Reinforcement Fine-Tuning for Video LLMs [67.55973229034319]
本稿では,マルチモーダルな大規模言語モデル(MLLM)をビデオ時間的グラウンド処理に適応させることの有効性向上を目的とした,新しい強化微調整フレームワークであるTempSamp-R1を紹介する。
我々は、TempSamp-R1がGRPOベースのベースラインより優れており、ベンチマークデータセット上で新しい最先端のパフォーマンスを確立していることを示す。
論文 参考訳(メタデータ) (2025-09-22T17:30:15Z) - Optimizing Temperature for Language Models with Multi-Sample Inference [47.14991144052361]
本稿では,異なる大言語モデルに対する(近傍)最適温度の自動同定という課題に対処する。
モデルアーキテクチャ、データセット、タスクタイプ、モデルサイズ、予測精度の変動を考慮して、性能最適化における温度の役割を総合的に分析する。
本稿では,温度自動最適化のためのエントロピーに基づく新しい計量法を提案する。
論文 参考訳(メタデータ) (2025-02-07T19:35:25Z) - Adaptive Decoding via Latent Preference Optimization [55.70602730588745]
モデルに付加されたレイヤであるAdaptive Decodingを導入し、推論時にサンプリング温度を動的に選択する。
我々の手法は、異なる温度を必要とする様々なタスクにおいて、すべての固定デコード温度を上回ります。
論文 参考訳(メタデータ) (2024-11-14T18:31:39Z) - Extremum-Seeking Action Selection for Accelerating Policy Optimization [18.162794442835413]
連続空間の制御のための強化学習は、典型的にはガウス分布のような高エントロピーポリシーを用いて局所的な探索と性能の最適化を推定する。
本稿では,ESC(Extremum-Seeking Control)に基づく適応制御を付加することで,モデルフリーなRL設定におけるアクション選択を改善することを提案する。
本手法は, 各種制御学習環境において, 学習効率を向上させるために, 標準方針最適化において容易に追加することができる。
論文 参考訳(メタデータ) (2024-04-02T02:39:17Z) - Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field
Control/Game in Continuous Time [109.06623773924737]
線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。
線形速度で最適解に収束し, 合成シミュレーションにより検証した。
論文 参考訳(メタデータ) (2020-08-16T06:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。