論文の概要: Diagnosing Training Inference Mismatch in LLM Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.14220v1
- Date: Thu, 14 May 2026 00:27:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.552929
- Title: Diagnosing Training Inference Mismatch in LLM Reinforcement Learning
- Title(参考訳): LLM強化学習におけるトレーニング推論ミスマッチの診断
- Authors: Tianle Zhong, Neiwen Ling, Yifan Pi, Zijun Wei, Tianshu Yu, Geoffrey Fox, Peng Wu, Xiao Yu,
- Abstract要約: トレーニング・推論・ミスマッチ (TIM) は, 外部のドリフトと共通安定化機構に絡み合っているため, 検査が困難である。
本研究では,TIMをゼロミスマッチ診断装置(VeXact)で分離し,トークンレベルの数値的相違が独立にトレーニング崩壊を引き起こすことを示す。
- 参考スコア(独自算出の注目度): 10.829322294499882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern LLM RL systems separate rollout generation from policy optimization. These two stages are expected to produce token probabilities that match exactly. However, implementation differences can make them assign different values to the same sequence under the same model weights, inducing Training-Inference Mismatch (TIM). TIM is difficult to inspect because it is entangled with off-policy drift and common stabilization mechanisms. In this work, we isolate TIM in a zero-mismatch diagnostic setting (VeXact), and show that small token-level numerical disagreements can independently cause training collapse. We further show that TIM changes the effective optimization problem, and identify a set of remedies that could mitigate TIM. Our results suggest that TIM is not benign numerical noise, but a systems-level perturbation that should be treated as a first-order factor in analyzing LLM RL stability.
- Abstract(参考訳): 現代のLLM RLシステムは、ポリシー最適化からロールアウト生成を分離している。
これら2つの段階は、正確に一致するトークン確率を生成することが期待されている。
しかし、実装の違いにより、同じモデルの重みの下で異なる値を同じシーケンスに割り当てることができ、トレーニング・推論・ミスマッチ(TIM)を誘導する。
TIMは、オフ・ポリシードリフトと共通安定化機構に絡み合っているため、検査が困難である。
本研究では,TIMをゼロミスマッチ診断装置(VeXact)で分離し,トークンレベルの数値的相違が独立にトレーニング崩壊を引き起こすことを示す。
さらに、TIMが効率的な最適化問題を変更し、TIMを緩和できる対策のセットを特定することを示します。
以上の結果から,TIMは数値ノイズの良し悪しではなく,LLM RL安定性解析の第一次因子として扱うべきシステムレベルの摂動であることがわかった。
関連論文リスト
- ProtoDCS: Towards Robust and Efficient Open-Set Test-Time Adaptation for Vision-Language Models [32.840734752367275]
Prototype-based Double-Check separation (ProtoDCS)はOSTTAの堅牢なフレームワークである。
csIDとcsOODを分離し、ビジョン言語モデルのcsIDデータへの安全かつ効率的な適応を可能にする。
ProtoDCSは、既知のクラス精度とOOD検出メトリクスの両方を大幅に向上させる。
論文 参考訳(メタデータ) (2026-02-27T03:39:02Z) - S3-CoT: Self-Sampled Succinct Reasoning Enables Efficient Chain-of-Thought LLMs [48.80914119283909]
チェーン・オブ・シークレット(CoT)を備えた大規模言語モデルは、強力なパフォーマンスを実現し、振る舞いの窓を提供する。
最近の証拠は、CoT能力の改善には冗長な推論プロセスが伴うことを示唆している。
本研究では,効率的なCoT学習のためのアクティベーションステアリングに基づく自己サンプリングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-02T11:37:36Z) - Beyond Precision: Training-Inference Mismatch is an Optimization Problem and Simple LR Scheduling Fixes It [24.70923739848818]
トレーニングが進むにつれて,勾配雑音やトレーニング推論ミスマッチが増大することが明らかとなった。
更新サイズを小さくすることで、ミスマッチを効果的に抑制できることがわかった。
本稿では,学習率スケジューラという,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2026-02-02T09:00:53Z) - LaSeR: Reinforcement Learning with Last-Token Self-Rewarding [54.72617309922891]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の推論能力を高めるためのコアパラダイムとして登場した。
従来、LLMは2つの異なるプロンプトテンプレートを使用してソリューションと自己検証をシーケンシャルに生成し、効率を大幅に低下させる必要があった。
本稿では,従来のRLVR損失をMSE損失で増大させるアルゴリズムであるLaSeR(Reinforcement Learning with Last-Token Self-Rewarding)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:55:11Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - Simple Yet Effective: An Information-Theoretic Approach to Multi-LLM Uncertainty Quantification [9.397157329808254]
MUSEは、大規模言語モデルのよく校正されたサブセットを特定し、集約するための単純な情報理論手法である。
二分予測タスクの実験では、単一モデルとナイーブアンサンブルベースラインと比較してキャリブレーションと予測性能が改善された。
論文 参考訳(メタデータ) (2025-07-09T19:13:25Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Robust Search with Uncertainty-Aware Value Models for Language Model Reasoning [31.973976155760397]
値モデル誘導探索はLLM生成のステアリングに有効であるが、堅牢性の欠如に悩まされている。
本研究では, 予測信頼性を定量化するために, 単一点値推定を値分布に置き換える不確実性認識値モデル (UVMs) と, 最適である確率に基づいて候補を選択するアルゴリズムであるグループトンプソンサンプリング (Group Thompson Sampling) の2つの主要な構成要素を持つ不確実性認識フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-16T15:10:30Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - LoRA-Ensemble: Efficient Uncertainty Modelling for Self-Attention Networks [52.46420522934253]
本稿では,自己注意ネットワークのためのパラメータ効率のよいアンサンブル手法であるLoRA-Ensembleを紹介する。
この方法は、BatchEnsembleのような最先端の暗黙のテクニックを上回るだけでなく、Explicit Ensembleの正確さにマッチするか超える。
論文 参考訳(メタデータ) (2024-05-23T11:10:32Z) - Mutual-Information Based Few-Shot Classification [34.95314059362982]
数ショット学習のためのTIM(Transductive Infomation Maximization)を提案する。
提案手法は,与えられた数発のタスクに対して,クエリ特徴とラベル予測との相互情報を最大化する。
そこで我々は,勾配に基づく最適化よりもトランスダクティブ推論を高速化する交代方向解法を提案する。
論文 参考訳(メタデータ) (2021-06-23T09:17:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。