論文の概要: Online Causal Kalman Filtering for Stable and Effective Policy Optimization
- arxiv url: http://arxiv.org/abs/2602.10609v1
- Date: Wed, 11 Feb 2026 07:57:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.558474
- Title: Online Causal Kalman Filtering for Stable and Effective Policy Optimization
- Title(参考訳): 安定かつ効果的な政策最適化のためのオンライン因果カルマンフィルタ
- Authors: Shuo He, Lang Feng, Xin Cheng, Lei Feng, Bo An,
- Abstract要約: トークンレベルでの局所的なオフ・ポリティクスの偏差は構造的に不整合であることを示す。
安定かつ効果的な政策最適化のためのオンライン因果カルマンフィルタを提案する。
- 参考スコア(独自算出の注目度): 23.37041897899078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning for large language models suffers from high-variance token-level importance sampling (IS) ratios, which would destabilize policy optimization at scale. To improve stability, recent methods typically use a fixed sequence-level IS ratio for all tokens in a sequence or adjust each token's IS ratio separately, thereby neglecting temporal off-policy derivation across tokens in a sequence. In this paper, we first empirically identify that local off-policy deviation is structurally inconsistent at the token level, which may distort policy-gradient updates across adjacent tokens and lead to training collapse. To address the issue, we propose Online Causal Kalman Filtering for stable and effective Policy Optimization (KPO). Concretely, we model the desired IS ratio as a latent state that evolves across tokens and apply a Kalman filter to update this state online and autoregressively based on the states of past tokens, regardless of future tokens. The resulting filtered IS ratios preserve token-wise local structure-aware variation while strongly smoothing noise spikes, yielding more stable and effective policy updates. Experimentally, KPO achieves superior results on challenging math reasoning datasets compared with state-of-the-art counterparts.
- Abstract(参考訳): 大規模言語モデルの強化学習は,高分散トークンレベルの重要度サンプリング(IS)比に悩まされる。
安定性を向上させるために、最近の手法では一般に、シーケンス内の全てのトークンに対して固定シーケンスレベルのIS比を使用するか、それぞれのトークンのIS比を個別に調整する。
本稿では,まず,近隣のトークンにまたがる政策の緩やかな更新を歪曲し,トレーニングの崩壊につながるような,局所的なオフ・ポリティクスの偏差がトークンレベルで構造的に不整合であることを実証的に確認する。
この問題に対処するために、安定かつ効果的な政策最適化(KPO)のためのオンライン因果カルマンフィルタを提案する。
具体的には、所望のIS比を、トークン間で進化する潜在状態としてモデル化し、Kalmanフィルタを適用して、過去のトークンの状態に基づいて、将来のトークンに関わらず、オンラインで自動回帰的にこの状態を更新する。
その結果、フィルタされたIS比はトークン単位の局所構造認識の変動を保ちながら、ノイズスパイクを強く滑らかにし、より安定的で効果的なポリシー更新をもたらす。
実験によって、KPOは、最先端のデータセットと比較して、挑戦的な数学推論データセットにおいて優れた結果が得られる。
関連論文リスト
- Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - A Step Back: Prefix Importance Ratio Stabilizes Policy Optimization [58.116300485427764]
強化学習のポストトレーニングは、大きな言語モデルにおける推論の振る舞いを引き出すことができる。
トークンレベルの補正は、オフポリシーネスの度合いが大きい場合、不安定なトレーニングダイナミクスにつながることが多い。
我々は,最小固定率 (MinPRO) を簡易かつ効果的に提案する。
論文 参考訳(メタデータ) (2026-01-30T08:47:19Z) - Kinematic Tokenization: Optimization-Based Continuous-Time Tokens for Learnable Decision Policies in Noisy Time Series [0.2538209532048867]
トランスフォーマーは離散トークン用に設計されているが、多くの実世界の信号はノイズサンプリングによって観測される連続的なプロセスである。
最適化に基づく連続時間表現であるKinematic Tokenizationを導入する。
本研究では,明示的な連続時間トークンにより,雑音を伴う時系列における選択的決定ポリシーの学習性と校正性を向上できることを示す。
論文 参考訳(メタデータ) (2026-01-15T00:21:02Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - Relative Entropy Pathwise Policy Optimization [66.03329137921949]
そこで本稿では,Q値モデルをオンライントラジェクトリから純粋に訓練するオンラインアルゴリズムを提案する。
安定トレーニングのための制約付き更新と探索のためのポリシを組み合わせる方法を示し、価値関数学習を安定化させる重要なアーキテクチャコンポーネントを評価する。
論文 参考訳(メタデータ) (2025-07-15T06:24:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。