論文の概要: Rethinking GSPO: The Perplexity-Entropy Equivalence
- arxiv url: http://arxiv.org/abs/2510.23142v1
- Date: Mon, 27 Oct 2025 09:19:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.50424
- Title: Rethinking GSPO: The Perplexity-Entropy Equivalence
- Title(参考訳): GSPOを再考する:パープレキシティ-エントロピー等価性
- Authors: Chi Liu,
- Abstract要約: GSPOのシーケンスレベルの重み $s(theta) = (pi_theta/pi_theta_textold)1/|y|$ は逆パープレキシティ比 $textPPL_theta$ および指数的クロスエントロピー変化 $exp(Delta H)$ と等価に表現できることを示す。
この観点は、幾何平均化による対数領域の分散の低減や、エキスパートモデルの訓練における安定性など、GSPOの経験的特性を説明するのに役立つ。
- 参考スコア(独自算出の注目度): 3.4057438602175742
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We provide a new perspective on GSPO's length-normalized importance ratios by establishing their connection to information-theoretic quantities. We show that GSPO's sequence-level weight $s(\theta) = (\pi_\theta/\pi_{\theta_{\text{old}}})^{1/|y|}$ can be equivalently expressed as the inverse perplexity ratio $\text{PPL}_{\theta_{\text{old}}}/\text{PPL}_\theta$ and as the exponential cross-entropy change $\exp(\Delta H)$. While the perplexity-entropy relationship follows from standard definitions, this observation provides a useful lens for understanding GSPO: the algorithm weights policy gradient updates by perplexity ratios, offering an information-theoretic interpretation of the importance weights. This perspective helps explain GSPO's empirical properties, including log-domain variance reduction through geometric averaging and stability in training mixture-of-experts models. We validate the mathematical equivalences and variance predictions through controlled experiments on mathematical reasoning tasks.
- Abstract(参考訳): 我々は,情報理論量との接続を確立することにより,GSPOの長さ正規化重要度を新たな視点とする。
GSPOのシーケンスレベルの重み $s(\theta) = (\pi_\theta/\pi_{\theta_{\text{old}}})^{1/|y|}$ は逆パープレキシティ比 $\text{PPL}_{\theta_{\text{old}}}/\text{PPL}_\theta$ として、指数的クロスエントロピー変化 $\exp(\Delta H)$ として等価に表現できることを示す。
パープレキシティとエントロピーの関係は標準的な定義から従うが、この観測はGSPOを理解するのに有用なレンズを提供する:アルゴリズムはパープレキシティ比によるポリシー勾配の更新を重み付けし、重要度を情報理論で解釈する。
この観点は、幾何平均化による対数領域の分散の低減や、エキスパートモデルの訓練における安定性など、GSPOの経験的特性を説明するのに役立つ。
数理推論タスクの制御実験により,数理等価性と分散予測の妥当性を検証した。
関連論文リスト
- A Unified Analysis for Finite Weight Averaging [50.75116992029417]
Gradient Descent(SGD)の平均イテレーションは、SWA(Weight Averaging)、EMA(Exponential moving Average)、LAWA(Latest Weight Averaging)といったディープラーニングモデルのトレーニングにおいて、経験的な成功を収めている。
本稿では、LAWAを有限重み平均化(FWA)として一般化し、最適化と一般化の観点からSGDと比較して、それらの利点を説明する。
論文 参考訳(メタデータ) (2024-11-20T10:08:22Z) - TIC-TAC: A Framework for Improved Covariance Estimation in Deep Heteroscedastic Regression [109.69084997173196]
奥行き回帰は、予測分布の平均と共分散を負の対数類似度を用いて共同最適化する。
近年の研究では, 共分散推定に伴う課題により, 準最適収束が生じる可能性が示唆されている。
1)予測共分散は予測平均のランダム性を真に捉えているか?
その結果, TICは共分散を正確に学習するだけでなく, 負の対数類似性の収束性の向上も促進することがわかった。
論文 参考訳(メタデータ) (2023-10-29T09:54:03Z) - Theory of free fermions under random projective measurements [43.04146484262759]
本研究では,一次元自由フェルミオンを局所的占有数のランダム射影的測定対象とする解析的手法を開発した。
問題の有効場理論として非線形シグマモデル(NLSM)を導出する。
論文 参考訳(メタデータ) (2023-04-06T15:19:33Z) - The Shrinkage-Delinkage Trade-off: An Analysis of Factorized Gaussian
Approximations for Variational Inference [3.167685495996986]
変分推論の不確かさを測る2つの一般的な方法を考える(VI)
我々は、$q$は常に成分的分散と$p$のエントロピーの両方を過小評価していることを証明している。
特に,問題の大きさが大きくなるにつれて,各成分のエントロピーギャップは消滅する。
論文 参考訳(メタデータ) (2023-02-17T22:21:47Z) - Fractal properties of particle paths due to generalised uncertainty
relations [0.0]
我々は最近提案された量子幾何学のスミアド空間モデルにおいて、粒子経路のハウスドルフ次元である$D_rm H$を決定する。
一般化された不確実性原理 (GUP) と拡張不確実性原理 (EUP) は、粒子経路のフラクタル特性を根本的に異なるが、補完的な方法で影響を及ぼす。
論文 参考訳(メタデータ) (2022-06-01T16:26:39Z) - Hyperbolic Graph Embedding with Enhanced Semi-Implicit Variational
Inference [48.63194907060615]
半単純グラフ変分自動エンコーダを用いて,低次元グラフ潜在表現における高次統計量を取得する。
我々は、階層構造を示すグラフを効率的に表現するために、ポインケア埋め込みを通して潜在空間に双曲幾何学を組み込む。
論文 参考訳(メタデータ) (2020-10-31T05:48:34Z) - Learning Disentangled Representations with Latent Variation
Predictability [102.4163768995288]
本稿では,潜在不整合表現の変動予測可能性について述べる。
逆生成プロセス内では、潜時変動と対応する画像対の相互情報を最大化することにより、変動予測可能性を高める。
本研究では,潜在表現の絡み合いを測るために,基礎的構造的生成因子に依存しない評価指標を開発する。
論文 参考訳(メタデータ) (2020-07-25T08:54:26Z) - The Heavy-Tail Phenomenon in SGD [7.366405857677226]
最小損失のHessianの構造に依存すると、SGDの反復はエンフェビーテールの定常分布に収束する。
深層学習におけるSGDの行動に関する知見に分析結果を変換する。
論文 参考訳(メタデータ) (2020-06-08T16:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。