論文の概要: AIS: Adaptive Importance Sampling for Quantized RL
- arxiv url: http://arxiv.org/abs/2605.13907v1
- Date: Wed, 13 May 2026 03:36:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.410073
- Title: AIS: Adaptive Importance Sampling for Quantized RL
- Title(参考訳): AIS:量子化RLのための適応的重要度サンプリング
- Authors: Jiajun Zhou, Wei Shao, Lingchao Zheng, Yuwei Fan, Ngai Wong,
- Abstract要約: 大規模言語モデル(LLM)の強化学習はロールアウト生成のコストに支配されている。
これは、ロールアウトトレーニングミスマッチを導入し、ポリシー勾配を偏り、推論ベンチマークでトレーニングが完全に崩壊する可能性がある。
このミスマッチは非定常的であり、二重刃の剣として機能し、初期のトレーニングでは探索ボーナスを提供し、トレーナーがアンダーサンプするトラジェクトリーへの勾配を露呈する。
本稿では,適応的重要度サンプリング(AIS)を提案する。
- 参考スコア(独自算出の注目度): 21.387834718338496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) for large language models (LLMs) is dominated by the cost of rollout generation, which has motivated the use of low-precision rollouts (e.g., FP8) paired with a BF16 trainer to improve throughput and reduce memory pressure. This introduces a rollout-training mismatch that biases the policy gradient and can cause training to collapse outright on reasoning benchmarks. We show that the mismatch is non-stationary and acts as a double-edged sword: early in training it provides a stochastic exploration bonus, exposing the gradient to trajectories the trainer would otherwise under-sample, but the same perturbation transitions into a destabilizing source of bias as the policy concentrates. To solve this, we propose Adaptive Importance Sampling (AIS), a correction framework that adjusts the strength of its intervention on a per-batch basis. AIS combines three real-time diagnostics, namely weight reliability, divergence severity, and variance amplification, into a single mixing coefficient that interpolates between the uncorrected and fully importance-weighted gradients, suppressing the destabilizing component of the mismatch while preserving its exploratory benefit. We integrate AIS into GRPO and evaluate it on the diffusion-based LLaDA-8B-Instruct and the autoregressive Qwen3-8B and Qwen3.5-9B across mathematical reasoning and planning benchmarks. AIS matches the BF16 baseline on most tasks while retaining the 1.5 to 2.76x rollout speedup of FP8.
- Abstract(参考訳): 大規模言語モデル(LLM)の強化学習(RL)はロールアウト生成のコストに支配されており、BF16トレーナーと組み合わせた低精度ロールアウト(例えばFP8)を使用してスループットを向上し、メモリ圧力を低減している。
これは、ロールアウトトレーニングミスマッチを導入し、ポリシー勾配を偏り、推論ベンチマークでトレーニングが完全に崩壊する可能性がある。
このミスマッチは非定常的であり、二重刃の剣として機能し、訓練の初期には、トレーナーがアンダーサンプルとなる軌道への勾配を露呈する確率的な探索ボーナスを提供するが、同じ摂動は、ポリシーが集中するにつれてバイアスの不安定な源へと移行する。
そこで本研究では,適応重要度サンプリング(Adaptive Importance Smpling,AIS)を提案する。
AISは、ウェイト信頼性、分散度、分散増幅の3つのリアルタイム診断を、修正されていない勾配と完全に重み付けされた勾配の間を補間する単一の混合係数に結合し、探索的利益を維持しながらミスマッチの不安定化成分を抑制する。
我々はAISをGRPOに統合し,拡散に基づくLLaDA-8B-インストラクトと,数学的推論と計画ベンチマークによる自己回帰的Qwen3-8BとQwen3.5-9Bで評価する。
AISは、ほとんどのタスクにおいてBF16ベースラインと一致し、FP8の1.5から2.76倍のロールアウト速度を維持した。
関連論文リスト
- Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - Bridging SFT and RL: Dynamic Policy Optimization for Robust Reasoning [10.4404175363648]
大規模言語モデル(LLM)のポストトレーニングパラダイムは、基本的なジレンマに直面します。
SFTは安定性(低分散)を提供するが、高い適合バイアスに悩まされる一方、RLは探索(低バイアス)が可能であるが、高勾配のばらつきを持つ波紋である。
既存の統一最適化戦略では、これらの異なる勾配信号間の統計的衝突を見越して、単純な損失重み付けを用いることが多い。
我々は,この対立を構造的に緩和する統合フレームワークである textbfDYPO (Dynamic Policy Optimization) を提案する。
論文 参考訳(メタデータ) (2026-04-10T03:42:16Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training [18.849117699859622]
訓練安定性は、大規模言語モデルの強化学習における中心的な課題である。
変動周波数レベルのソフトポリシー最適化(VESPO)を提案する。
数学的推論ベンチマークの実験では、VESPOは安定なトレーニングを64倍の安定度と完全な非同期実行で維持している。
論文 参考訳(メタデータ) (2026-02-11T09:48:08Z) - Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。
累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。
主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文 参考訳(メタデータ) (2026-02-10T21:08:53Z) - Beyond Precision: Training-Inference Mismatch is an Optimization Problem and Simple LR Scheduling Fixes It [24.70923739848818]
トレーニングが進むにつれて,勾配雑音やトレーニング推論ミスマッチが増大することが明らかとなった。
更新サイズを小さくすることで、ミスマッチを効果的に抑制できることがわかった。
本稿では,学習率スケジューラという,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2026-02-02T09:00:53Z) - Enhancing the Outcome Reward-based RL Training of MLLMs with Self-Consistency Sampling [90.87033586963828]
マルチモーダル大言語モデル(MLLM)のステップ・バイ・ステップ推論を洗練させる手段としては,アウトカム・リワード強化学習(RL)が一般的であり,ますます重要になっている。
この問題を修正するために,自己整合サンプリング(SCS)を提案する。
Qwen2.5-VL-7B-インストラクトに基づいて、SCSは、無視できる余分な計算を伴う6つのマルチモーダルベンチマークにおいて、最大7.7ポイントの精度を向上する。
論文 参考訳(メタデータ) (2025-11-13T18:59:57Z) - Think Right: Learning to Mitigate Under-Over Thinking via Adaptive, Attentive Compression [68.69801176669843]
本稿では,冗長なステップを誘発し,難易度を推定するオンラインポストトレーニングRL手法を提案する。
TRAAC(Think Right with Adaptive, Attentive Compression)は、絶対精度が平均8.4%向上する。
我々のモデルは数学データセットに基づいて訓練されているが、分布外データセットの精度と効率性を示す。
論文 参考訳(メタデータ) (2025-10-02T02:00:20Z) - Advantage Weighted Matching: Aligning RL with Pretraining in Diffusion Models [35.36024202299119]
拡散の政策段階的手法である textbfAdvantage Weighted Matching (AWM) を導入する。
AWMは、事前学習と同一のモデリング目標を維持しながら、高逆サンプルの影響を高め、低逆サンプルを抑制する。
これは事前学習とRLを概念的かつ実践的に統一し、政策次数理論と整合性を持ち、分散を減少させ、より高速な収束をもたらす。
論文 参考訳(メタデータ) (2025-09-29T17:02:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。