論文の概要: ASPO: Asymmetric Importance Sampling Policy Optimization
- arxiv url: http://arxiv.org/abs/2510.06062v1
- Date: Tue, 07 Oct 2025 15:54:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.331017
- Title: ASPO: Asymmetric Importance Sampling Policy Optimization
- Title(参考訳): ASPO:非対称な重要度サンプリングポリシー最適化
- Authors: Jiakang Wang, Runze Liu, Lei Lin, Wenping Hu, Xiu Li, Fuzheng Zhang, Guorui Zhou, Kun Gai,
- Abstract要約: ポジティブアドバンテージトークンのImportance Smpling(IS)比は不一致であり、正および負のトークンに対するアンバランストークン重み付けにつながる。
このミスマッチは、既に高確率のトークンを過剰に増幅しながら、低確率トークンの更新を抑制する。
我々は,IS比の正アドバンテージトークンを反転させるシンプルかつ効果的な戦略を用いた非対称的重要度サンプリングポリシー最適化(ASPO)を提案する。
- 参考スコア(独自算出の注目度): 31.38346888572171
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent Large Language Model (LLM) post-training methods rely on token-level clipping mechanisms during Reinforcement Learning (RL). However, we identify a fundamental flaw in this Outcome-Supervised RL (OSRL) paradigm: the Importance Sampling (IS) ratios of positive-advantage tokens are mismatched, leading to unbalanced token weighting for positive and negative tokens. This mismatch suppresses the update of low-probability tokens while over-amplifying already high-probability ones. To address this, we propose Asymmetric Importance Sampling Policy Optimization (ASPO), which uses a simple yet effective strategy that flips the IS ratios of positive-advantage tokens, aligning their update direction with the learning dynamics of negative ones. AIS further incorporates a soft dual-clipping mechanism to stabilize extreme updates while maintaining gradient flow. Comprehensive experiments on coding and mathematical reasoning benchmarks demonstrate that ASPO significantly mitigates premature convergence, improves training stability, and enhances final performance over strong GRPO-based baselines. Our analysis provides new insights into the role of token-level weighting in OSRL and highlights the critical importance of correcting IS in LLM RL. The code and models of ASPO are available at https://github.com/wizard-III/Archer2.0.
- Abstract(参考訳): 近年のLLM(Large Language Model)ポストトレーニング手法は、強化学習(RL)におけるトークンレベルのクリッピング機構に依存している。
しかし、このアウトカム・スーパーバイザードRL(OSRL)パラダイムの根本的な欠陥は、正のアドバンテージトークンのImportance Smpling(IS)比が不一致であり、正のトークンと負のトークンのアンバランスなトークン重み付けにつながる。
このミスマッチは、既に高確率のトークンを過剰に増幅しながら、低確率トークンの更新を抑制する。
そこで本研究では,IS比の正アドバンテージトークンを反転させ,その更新方向を負のトークンの学習力学と整合させる,シンプルかつ効果的な戦略を用いた非対称重要度サンプリングポリシー最適化(ASPO)を提案する。
AISはさらに、勾配流を維持しながら極端な更新を安定化させるソフトなデュアルクリッピング機構を組み込んでいる。
コーディングと数学的推論のベンチマークに関する総合的な実験は、ASPOが早期収束を著しく軽減し、トレーニングの安定性を改善し、GRPOベースのベースラインよりも最終的なパフォーマンスを向上させることを示した。
我々は,OSRLにおけるトークンレベル重み付けの役割について新たな知見を提供し,LSM RLにおけるISの修正の重要性を強調した。
ASPOのコードとモデルはhttps://github.com/wizard-III/Archer2.0で公開されている。
関連論文リスト
- Bridging Supervised Learning and Reinforcement Learning in Math Reasoning [55.889740979706815]
強化学習(Reinforcement Learning, RL)は、二分検証信号による自己改善を可能にすることで、近年の数学能力の急上昇において中心的な役割を担っている。
本研究は,LLMが障害を反映し,外部教師なしで自律的に改善できる教師型アプローチである負認識ファインチューニング(NFT)を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:17:40Z) - Unearthing Gems from Stones: Policy Optimization with Negative Sample Augmentation for LLM Reasoning [41.83677588934301]
負のサンプル拡張(BCPG-NSA)による行動制約付きポリシーのグラディエントを提案する。
BCPG-NSA は,1) サンプルセグメンテーション,2) LLM と PRM を併用した合意に基づくステップ正当性評価,3) 正のステップを負のサンプル内で効果的にマイニングするNSA とのポリシー最適化の3段階を含む,詳細なオフラインフレームワークである。
実験の結果、BCPG-NSAは、同じトレーニングデータセットを使用して、いくつかの挑戦的な数学/コーディング推論ベンチマークのベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-05-20T14:16:49Z) - Do Not Let Low-Probability Tokens Over-Dominate in RL for LLMs [25.575582861331405]
低確率トークンは、大きな勾配のマグニチュードのため、モデルの更新に不均等に影響を及ぼす。
我々は2つの新しい手法を提案する: アドバンテージリウェイトと低確率トークン分離(Lopti)
我々のアプローチは、様々な確率でトークン間のバランスの取れた更新を促進し、強化学習の効率を高める。
論文 参考訳(メタデータ) (2025-05-19T10:14:08Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。