論文の概要: Taming the Tail: Stable LLM Reinforcement Learning via Dynamic Vocabulary Pruning
- arxiv url: http://arxiv.org/abs/2512.23087v1
- Date: Sun, 28 Dec 2025 21:44:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.357885
- Title: Taming the Tail: Stable LLM Reinforcement Learning via Dynamic Vocabulary Pruning
- Title(参考訳): 動的語彙解析による安定LLM強化学習
- Authors: Yingru Li, Jiawei Xu, Jiacai Liu, Yuxuan Tong, Ziniu Li, Tianle Cai, Ge Zhang, Qian Liu, Baoxiang Wang,
- Abstract要約: 推論エンジンと数値的精度のトレーニングシステムは、同じパラメータから異なる確率分布を生成し、トレーニング推論ミスマッチを生成する。
このようなトークンを刈り取ることで、大きな、体系的にバイアスのあるミスマッチを、小さな、境界付けられた最適化バイアスと交換する。
- 参考スコア(独自算出の注目度): 35.41241409574854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning for large language models (LLMs) faces a fundamental tension: high-throughput inference engines and numerically-precise training systems produce different probability distributions from the same parameters, creating a training-inference mismatch. We prove this mismatch has an asymmetric effect: the bound on log-probability mismatch scales as $(1-p)$ where $p$ is the token probability. For high-probability tokens, this bound vanishes, contributing negligibly to sequence-level mismatch. For low-probability tokens in the tail, the bound remains large, and moreover, when sampled, these tokens exhibit systematically biased mismatches that accumulate over sequences, destabilizing gradient estimation. Rather than applying post-hoc corrections, we propose constraining the RL objective to a dynamically-pruned ``safe'' vocabulary that excludes the extreme tail. By pruning such tokens, we trade large, systematically biased mismatches for a small, bounded optimization bias. Empirically, our method achieves stable training; theoretically, we bound the optimization bias introduced by vocabulary pruning.
- Abstract(参考訳): 大規模言語モデル(LLM)の強化学習は基本的な緊張に直面している。高スループット推論エンジンと数値的精度のトレーニングシステムは、同じパラメータから異なる確率分布を生成し、トレーニング推論ミスマッチを生成する。
このミスマッチには非対称効果があり、対数確率のミスマッチの上限は$(1-p)$であり、$p$はトークン確率である。
高確率トークンの場合、この境界は消滅し、シーケンスレベルのミスマッチに無視的に寄与する。
尾部の低確率トークンについては、境界は大きいままであり、さらにサンプル化されると、これらのトークンは、配列に蓄積する体系的に偏りのあるミスマッチを示し、勾配推定を不安定にする。
ポストホック補正を適用するのではなく、極端尾部を除外した動的に打ち出された ``safe'' 語彙に RL の目的を制約することを提案する。
このようなトークンを刈り取ることで、大きな、体系的にバイアスのあるミスマッチを、小さな、境界付けられた最適化バイアスと交換する。
理論的には、ボキャブラリプルーニングによって導入された最適化バイアスを束縛する。
関連論文リスト
- Learning from N-Tuple Data with M Positive Instances: Unbiased Risk Estimation and Theoretical Guarantees [33.15955234458642]
弱教師付き学習はしばしばラベルよりも粗い集約信号で機能する。
学習可能な未バイアスリスク推定器 (URE) をインスタンス生成プロセスと潜在限界値にリンクすることで, カウントが許容できることを示す。
我々は,理論上は基礎的かつ事実上安定的な目標設定によって,カウントオンリーの監視を効果的に活用できることを実証した。
論文 参考訳(メタデータ) (2025-10-21T08:28:07Z) - BAPE: Learning an Explicit Bayes Classifier for Long-tailed Visual Recognition [78.70453964041718]
現在のディープラーニングアルゴリズムは通常、後部確率を簡易に推定することで最適分類器を解く。
この単純な手法は、厳密にバランスのとれた学術ベンチマークデータセットに有効であることが証明されている。
しかし、これは現実世界の長い尾のデータ分布には適用できない。
本稿では,データ分布のより正確な理論的推定を行う新しい手法(BAPE)を提案する。
論文 参考訳(メタデータ) (2025-06-29T15:12:50Z) - Distributional Properties of Subword Regularization [25.824110425757198]
BPEとMaxMatchは2つの人気のあるサブワードトークン化スキームであり、ドロップアウト正規化のバリエーションがある。
これらの変種は、単語ごとのトークン化の小さなセットに大きく偏っていることを示す。
既存のトークン化の側面の代替として使用するトークン化を均一に行うアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-21T08:53:35Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - A Heavy-Tailed Algebra for Probabilistic Programming [53.32246823168763]
本稿では,確率変数の尾を解析するための体系的アプローチを提案する。
本稿では,確率型プログラミング言語コンパイラの静的解析(サンプル作成前)において,この手法をどのように利用できるかを示す。
実験結果から,重み付き代数を利用する推論アルゴリズムは,多数の密度モデリングおよび変分推論タスクにおいて優れた性能が得られることを確認した。
論文 参考訳(メタデータ) (2023-06-15T16:37:36Z) - Statistical Efficiency of Score Matching: The View from Isoperimetry [96.65637602827942]
本研究では, スコアマッチングの統計的効率と推定される分布の等尺性との間に, 密接な関係を示す。
これらの結果はサンプル状態と有限状態の両方で定式化する。
論文 参考訳(メタデータ) (2022-10-03T06:09:01Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Two-stage Training for Learning from Label Proportions [18.78148397471913]
ラベルパーセンテージ(LLP)からの学習は、グループ化されたトレーニングデータにおいてラベルパーセンテージを持つインスタンスレベルの分類器を学習することを目的としている。
ラベルノイズをさらに低減するために,混合戦略と対称クロスエントロピーを導入する。
我々のフレームワークはモデルに依存しず、広範な実験において魅力的なパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2021-05-22T03:55:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。