論文の概要: K-Score: Kalman Filter as a Principled Alternative to Reward Normalization in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.23056v1
- Date: Fri, 24 Apr 2026 22:54:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.124967
- Title: K-Score: Kalman Filter as a Principled Alternative to Reward Normalization in Reinforcement Learning
- Title(参考訳): Kスコア:強化学習における逆正規化の原理的代替としてのカルマンフィルタ
- Authors: Zixuan Xia, Quanxi Li,
- Abstract要約: 本稿では,政策強化学習における報酬正規化の簡易かつ効果的な代替手段を提案する。
本手法はオンライン報酬推定のための1次元カルマンフィルタを統合する。
textitLunarLander と textitCartPole の実験により、カルマンフィルタの報酬は標準正規化技術と比較して収束とトレーニングの分散を著しく加速することを示した。
- 参考スコア(独自算出の注目度): 1.9387040870886885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a simple yet effective alternative to reward normalization in policy gradient reinforcement learning by integrating a 1D Kalman filter for online reward estimation. Instead of relying on fixed heuristics, our method recursively estimates the latent reward mean, smoothing high-variance returns and adapting to non-stationary environments. This approach incurs minimal overhead and requires no modification to existing policy architectures. Experiments on \textit{LunarLander} and \textit{CartPole} demonstrate that Kalman-filtered rewards significantly accelerate convergence and reduce training variance compared to standard normalization techniques. Code is available at https://github.com/Sumxiaa/Kalman_Normalization.
- Abstract(参考訳): 本稿では,オンライン報酬推定のための1次元カルマンフィルタを統合することで,政策勾配強化学習における報酬正規化の簡易かつ効果的な代替手段を提案する。
固定ヒューリスティックスに頼る代わりに,提案手法は潜在報酬平均を再帰的に推定し,高分散リターンを円滑化し,非定常環境に適応させる。
このアプローチはオーバーヘッドを最小限にし、既存のポリシーアーキテクチャを変更する必要はない。
textit{LunarLander} と \textit{CartPole} の実験により、カルマンフィルタによる報酬は標準正規化手法と比較して収束を著しく加速し、トレーニングの分散を減少させることを示した。
コードはhttps://github.com/Sumxiaa/Kalman_Normalizationで入手できる。
関連論文リスト
- Shrinking the Variance: Shrinkage Baselines for Reinforcement Learning with Verifiable Rewards [12.074691741125044]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模推論モデルの訓練後において強力なパラダイムとして登場した。
本研究では,全プロンプト平均推定精度を向上させるために,全プロンプト平均値と全プロンプト平均値を組み合わせた縮小推定器を提案する。
論文 参考訳(メタデータ) (2025-11-05T18:43:15Z) - Kalman Filter Enhanced GRPO for Reinforcement Learning-Based Language Model Reasoning [11.157278744897427]
グループ相対政策最適化(GRPO)は、グループ内の全ての出力に対して平均報酬をベースラインとして減算することで、各出力の利点を計算するために提案された。
より適応的な利点推定モデルを用いて、KRPOはGRPOの安定性と性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2025-05-12T13:09:49Z) - Smoothed Normalization for Efficient Distributed Private Optimization [54.197255548244705]
フェデレートされた学習は、参加者のプライバシを備えた機械学習モデルを可能にする。
トレーニングやフィードバックのない問題に対して、差分にプライベートな分散手法は存在しない。
証明可能な収束保証付き分散アルゴリズム$alpha$-$sf NormEC$を導入する。
論文 参考訳(メタデータ) (2025-02-19T07:10:32Z) - WARP: On the Benefits of Weight Averaged Rewarded Policies [66.95013068137115]
ウェイトアベレード・リワード・ポリシー(WARP)という新しいアライメント戦略を導入する。
WARPは重量空間のポリシーを3つの異なる段階でマージする。
GEMMAポリシによる実験では、WARPが品質とアライメントを改善し、他のオープンソースLLMよりも優れています。
論文 参考訳(メタデータ) (2024-06-24T16:24:34Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Neural Kalman Filtering [62.997667081978825]
カルマンフィルタの勾配差近似は,差分重み付き予測誤差を持つ局所計算のみを必要とすることを示す。
また、同じスキームの下では、ヘビアン可塑性に直接対応する学習規則で動的モデルを適応的に学習することが可能であることを示す。
論文 参考訳(メタデータ) (2021-02-19T16:43:15Z) - Variance Penalized On-Policy and Off-Policy Actor-Critic [60.06593931848165]
本稿では,平均値と変動値の両方を含むパフォーマンス基準を最適化する,オン・ポリティィおよびオフ・ポリティィ・アクター・クリティカルなアルゴリズムを提案する。
提案手法は, アクタ批判的かつ事前の分散-ペナライゼーションベースラインに匹敵するだけでなく, リターンのばらつきが低いトラジェクトリも生成する。
論文 参考訳(メタデータ) (2021-02-03T10:06:16Z) - Fast OSCAR and OWL Regression via Safe Screening Rules [97.28167655721766]
順序付き$L_1$ (OWL)正規化回帰は、高次元スパース学習のための新しい回帰分析である。
近勾配法はOWL回帰を解くための標準手法として用いられる。
未知の順序構造を持つ原始解の順序を探索することにより、OWL回帰の最初の安全なスクリーニングルールを提案する。
論文 参考訳(メタデータ) (2020-06-29T23:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。