論文の概要: Decomposing the Entropy-Performance Exchange: The Missing Keys to Unlocking Effective Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.02260v1
- Date: Mon, 04 Aug 2025 10:08:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.283499
- Title: Decomposing the Entropy-Performance Exchange: The Missing Keys to Unlocking Effective Reinforcement Learning
- Title(参考訳): エントロピー・パフォーマンス交換を分解する:効果的な強化学習の鍵を欠く
- Authors: Jia Deng, Jie Chen, Zhipeng Chen, Wayne Xin Zhao, Ji-Rong Wen,
- Abstract要約: 検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるために広く用いられている。
我々は,RLVRのエントロピー・パフォーマンス交換機構を,異なるレベルの粒度で系統的に解析する。
分析の結果, 上昇段階において, 負のサンプルのエントロピー減少は効果的な推論パターンの学習を促進することが明らかとなった。
プラトー段階では、学習効率は、低エントロピーのサンプルに存在する高エントロピートークンと、シーケンスの終端に位置するトークンと強く相関する。
- 参考スコア(独自算出の注目度): 106.68304931854038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, reinforcement learning with verifiable rewards (RLVR) has been widely used for enhancing the reasoning abilities of large language models (LLMs). A core challenge in RLVR involves managing the exchange between entropy and performance of policies. Despite the importance of this exchange, a fine-grained understanding of when and how this exchange operates most effectively remains limited. To bridge this gap, we conduct a systematic empirical analysis of the entropy-performance exchange mechanism of RLVR across different levels of granularity. Specifically, we first divide the training process into two distinct stages based on entropy dynamics, i.e., rising stage and plateau stage, and then systematically investigate how this mechanism varies across stage-level, instance-level, and token-level granularitiess. Our analysis reveals that, in the rising stage, entropy reduction in negative samples facilitates the learning of effective reasoning patterns, which in turn drives rapid performance gains. Moreover, in the plateau stage, learning efficiency strongly correlates with high-entropy tokens present in low-perplexity samples and those located at the end of sequences. Motivated by these findings, we propose two methods that dynamically adjust the reward signal using perplexity and positional information to focus RL updates on tokens that exhibit high learning potential, achieving improvements compared to the baseline methods on various LLMs.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)の推論能力を高めるために,検証可能な報酬付き強化学習(RLVR)が広く用いられている。
RLVRの中核的な課題は、エントロピーとポリシーのパフォーマンスの交換を管理することである。
この交換の重要性にも拘わらず、いつ、どのようにこの交換が効果的に機能するかの詳細な理解は依然として限られている。
このギャップを埋めるために、RLVRのエントロピー・パフォーマンス交換機構を様々なレベルの粒度で体系的に解析する。
具体的には、まず、エントロピー力学、すなわち上昇段階と高原段階に基づいて、トレーニングプロセスを2つの異なる段階に分割し、次に、このメカニズムがステージレベル、インスタンスレベル、トークンレベルの粒度によってどのように変化するかを体系的に検討する。
分析の結果, 上昇段階において, 負のサンプルのエントロピーの減少は効果的な推論パターンの学習を促進することが判明した。
さらに, 学習効率は, 高エントロピートークンが低いエントロピーサンプルおよび配列の終端に存在するトークンと強く相関している。
そこで本研究では,高次学習可能性を示すトークンにRL更新を集中させるために,難易度と位置情報を用いて報酬信号を動的に調整する2つの手法を提案する。
関連論文リスト
- Do Not Let Low-Probability Tokens Over-Dominate in RL for LLMs [25.575582861331405]
低確率トークンは、大きな勾配のマグニチュードのため、モデルの更新に不均等に影響を及ぼす。
我々は2つの新しい手法を提案する: アドバンテージリウェイトと低確率トークン分離(Lopti)
我々のアプローチは、様々な確率でトークン間のバランスの取れた更新を促進し、強化学習の効率を高める。
論文 参考訳(メタデータ) (2025-05-19T10:14:08Z) - Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - Temporal-Difference Variational Continual Learning [89.32940051152782]
複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
提案手法は, 変分CL法より優れたカタストロフィックフォーミングを効果的に緩和する。
論文 参考訳(メタデータ) (2024-10-10T10:58:41Z) - HANet: A Hierarchical Attention Network for Change Detection With Bitemporal Very-High-Resolution Remote Sensing Images [6.890268321645873]
本研究では,変化情報の追加を含まないことに基づく,段階的前景バランスサンプリング戦略を提案する。
この戦略は、初期のトレーニングプロセス中に変更したピクセルの特徴を正確に学習するのに役立つ。
また,階層型注意ネットワーク(HANet)を設計し,マルチスケール機能の統合と詳細機能の改良を図る。
論文 参考訳(メタデータ) (2024-04-14T08:01:27Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Unraveling the Temporal Dynamics of the Unet in Diffusion Models [33.326244121918634]
拡散モデルはガウスノイズをトレーニングデータに導入し、元のデータを反復的に再構築する。
この反復プロセスの中心は単一のUnetであり、生成を容易にするために時間ステップを越えて適応する。
近年の研究では, この生成過程における組成および脱臭相の存在が明らかにされている。
論文 参考訳(メタデータ) (2023-12-17T04:40:33Z) - Variance-Covariance Regularization Improves Representation Learning [28.341622247252705]
我々は,分散共分散正規化(VCReg)を導入して,自己教師型学習規則化手法を教師型学習コンテキストに適用する。
我々は、VCRegが画像やビデオの転送学習を大幅に強化し、多数のタスクやデータセットで最先端のパフォーマンスを達成することを実証した。
要約すると、VCRegは、転送学習を大幅に進歩させ、勾配飢餓、神経崩壊、特徴伝達可能性の間の接続を強調する、普遍的に適用可能な正規化フレームワークを提供する。
論文 参考訳(メタデータ) (2023-06-23T05:01:02Z) - Balanced Supervised Contrastive Learning for Few-Shot Class-Incremental
Learning [8.411863266518395]
我々は,FSCILネットワークの各コアコンポーネントに対して,効果的な手法を統合する,シンプルで強力な学習手法を開発した。
特徴抽出学習において、我々のゴールは、現在の表示可能クラスと見えないクラスと過去のクラスの両方に利益をもたらす、バランスのとれた汎用表現を得ることである。
提案手法は,CUB200,CIFAR100,MiniImagenetデータセットにおいて,新しいタスク学習の優れた能力を示す。
論文 参考訳(メタデータ) (2023-05-26T07:17:24Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。