論文の概要: Look Inward to Explore Outward: Learning Temperature Policy from LLM Internal States via Hierarchical RL
- arxiv url: http://arxiv.org/abs/2602.13035v1
- Date: Fri, 13 Feb 2026 15:42:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:54.017934
- Title: Look Inward to Explore Outward: Learning Temperature Policy from LLM Internal States via Hierarchical RL
- Title(参考訳): 外部への展望:階層的RLによるLLM内部状態からの温度政策の学習
- Authors: Yixiao Zhou, Yang Li, Dongzhou Cheng, Hehe Fan, Yu Cheng,
- Abstract要約: 生成時のサンプリング温度の制御を学習する階層的強化学習フレームワークを提案する。
各復号ステップでは、モデルがその隠れた状態に基づいて温度を選択し、その結果の分布から次のトークンをサンプリングする。
温度とトークンのポリシーは、座標上昇スキームを用いて下流の報酬から共同で最適化される。
- 参考スコア(独自算出の注目度): 30.357975264905978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning from Verifiable Rewards (RLVR) trains large language models (LLMs) from sampled trajectories, making decoding strategy a core component of learning rather than a purely inference-time choice. Sampling temperature directly controls the exploration--exploitation trade-off by modulating policy entropy, yet existing methods rely on static values or heuristic adaptations that are decoupled from task-level rewards. We propose Introspective LLM, a hierarchical reinforcement learning framework that learns to control sampling temperature during generation. At each decoding step, the model selects a temperature based on its hidden state and samples the next token from the resulting distribution. Temperature and token policies are jointly optimized from downstream rewards using a coordinate ascent scheme. Experiments on mathematical reasoning benchmarks show that learned temperature policies outperform fixed and heuristic baselines, while exhibiting interpretable exploration behaviors aligned with reasoning uncertainty.
- Abstract(参考訳): RLVR(Reinforcement Learning from Verifiable Rewards)は、サンプルトラジェクトリから大きな言語モデル(LLM)をトレーニングし、デコード戦略を純粋な推論時間選択ではなく、学習のコアコンポーネントにする。
温度のサンプリングは、政策エントロピーを調節することで、探査-爆発的トレードオフを直接制御するが、既存の手法は、タスクレベルの報酬から切り離された静的な値やヒューリスティックな適応に依存している。
生成時のサンプリング温度の制御を学習する階層的強化学習フレームワークであるイントロスペクティブLSMを提案する。
各復号ステップでは、モデルがその隠れた状態に基づいて温度を選択し、その結果の分布から次のトークンをサンプリングする。
温度とトークンのポリシーは、座標上昇スキームを用いて下流の報酬から共同で最適化される。
数学的推論ベンチマークの実験では、学習した温度ポリシーは、推論の不確実性に沿った解釈可能な探索行動を示しながら、固定的およびヒューリスティックなベースラインよりも優れていた。
関連論文リスト
- Temperature as a Meta-Policy: Adaptive Temperature in LLM Reinforcement Learning [47.83947232413507]
大規模言語モデル(LLM)における探索と搾取のトレードオフの温度制御
高温は多様だがノイズの多い出力を奨励し、低温は集中した出力を生み出すが、早めの収束を引き起こす可能性がある。
本稿では,温度制御を学習可能なメタ政治として再放送する新しいフレームワークである温度適応メタポリシー最適化(TAMPO)を提案する。
論文 参考訳(メタデータ) (2026-02-12T09:59:58Z) - Reasoning Palette: Modulating Reasoning via Latent Contextualization for Controllable Exploration for (V)LMs [49.66344956133349]
推論能力は、大規模な(ビジョン)言語モデルのための推論時間性能と強化学習(RL)トレーニングの両方を形作る。
本稿では,戦略的文脈化のための潜在変数をモデルに付与する新しい潜在変調フレームワークであるReasoning Paletteを提案する。
論文 参考訳(メタデータ) (2025-12-19T03:32:53Z) - Policy Gradient-Based EMT-in-the-Loop Learning to Mitigate Sub-Synchronous Control Interactions [0.2609784101826761]
本稿では,サブ同期発振に対処する学習ベース制御ゲインの開発について検討する。
このようなサブ同期発振の原因となる格子条件を考慮に入れた学習ベースのフレームワークを採用している。
実世界のイベント設定における我々の実験は、深いポリシー勾配に基づく訓練されたポリシーがゲイン設定を適応的に計算できることを示します。
論文 参考訳(メタデータ) (2025-11-08T03:12:29Z) - LLM-Oriented Token-Adaptive Knowledge Distillation [64.08412563818662]
本稿では,各トークンのリアルタイム学習状態に蒸留プロセスを適用する新しいフレームワークを提案する。
AdaKDは、2つの相乗的加群からなる。
プラグアンドプレイフレームワークとして、AdaKDは複数のモデルアーキテクチャやベンチマーク上で様々な蒸留方法の性能を一貫して向上させることができる。
論文 参考訳(メタデータ) (2025-10-13T16:55:07Z) - Let it Calm: Exploratory Annealed Decoding for Verifiable Reinforcement Learning [29.277754405630205]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるための強力なパラダイムである。
標準の固定温度サンプリングは単純であるが、高温がサンプルの品質を低下させ、低温が発見を制限するため、これらの競合する要求のバランスをとるのに苦労している。
我々は、早期トークンに最も影響のある探索的アニールデコーディング(EAD)という、よりシンプルで効果的な戦略を提案する。
論文 参考訳(メタデータ) (2025-10-06T18:15:43Z) - One-Token Rollout: Guiding Supervised Fine-Tuning of LLMs with Policy Gradient [16.05489579792086]
政策勾配法を用いてSFTを誘導する新しい微調整アルゴリズムであるワンツーケンロールアウト(OTR)を導入する。
OTRは、各トークン生成を1ステップ強化学習軌跡として扱うことにより、自己回帰学習プロセスを再構築する。
我々は,OTRを微調整LDMの強力で実用的な代替品として位置づけた。
論文 参考訳(メタデータ) (2025-09-30T14:25:56Z) - Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - Data Assimilation in Chaotic Systems Using Deep Reinforcement Learning [0.5999777817331317]
データ同化は、気候予報や天気予報から自動運転車の軌道計画まで、様々な応用において重要な役割を果たしている。
近年の進歩は、主に教師付き学習フレームワーク内で、この領域でディープラーニングアプローチが出現している。
本研究では、強化学習(RL)を用いて状態変数の完全あるいは部分的観測を用いて状態修正を行う新しいDA戦略を提案する。
論文 参考訳(メタデータ) (2024-01-01T06:53:36Z) - Is Inverse Reinforcement Learning Harder than Standard Reinforcement
Learning? A Theoretical Perspective [55.36819597141271]
逆強化学習(IRL: Inverse Reinforcement Learning)は、インテリジェントシステム開発において重要な役割を担う。
本稿では、サンプルとランタイムを用いて、バニラのオフラインおよびオンライン設定における効率的なIRLの最初のラインを提供する。
応用として、学習した報酬は適切な保証で他のターゲットMDPに転送可能であることを示す。
論文 参考訳(メタデータ) (2023-11-29T00:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。