論文の概要: Stabilizing the Q-Gradient Field for Policy Smoothness in Actor-Critic
- arxiv url: http://arxiv.org/abs/2601.22970v1
- Date: Fri, 30 Jan 2026 13:32:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.471722
- Title: Stabilizing the Q-Gradient Field for Policy Smoothness in Actor-Critic
- Title(参考訳): アクター臨界における政策平滑性のためのQ勾配場の安定化
- Authors: Jeong Woon Lee, Kyoleen Kwak, Daeho Kim, Hyoseok Hwang,
- Abstract要約: 政策非平滑性は批評家の微分幾何学によって支配されていると論じる。
批判中心の正規化フレームワークであるPAVEを紹介する。
PAVEは局所曲率を維持しながらQ段階のボラティリティを最小化して学習信号を補正する。
- 参考スコア(独自算出の注目度): 7.536387580547838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Policies learned via continuous actor-critic methods often exhibit erratic, high-frequency oscillations, making them unsuitable for physical deployment. Current approaches attempt to enforce smoothness by directly regularizing the policy's output. We argue that this approach treats the symptom rather than the cause. In this work, we theoretically establish that policy non-smoothness is fundamentally governed by the differential geometry of the critic. By applying implicit differentiation to the actor-critic objective, we prove that the sensitivity of the optimal policy is bounded by the ratio of the Q-function's mixed-partial derivative (noise sensitivity) to its action-space curvature (signal distinctness). To empirically validate this theoretical insight, we introduce PAVE (Policy-Aware Value-field Equalization), a critic-centric regularization framework that treats the critic as a scalar field and stabilizes its induced action-gradient field. PAVE rectifies the learning signal by minimizing the Q-gradient volatility while preserving local curvature. Experimental results demonstrate that PAVE achieves smoothness and robustness comparable to policy-side smoothness regularization methods, while maintaining competitive task performance, without modifying the actor.
- Abstract(参考訳): 連続的なアクター批判的手法を通じて学んだポリシーは、しばしば不規則で高周波の振動を示し、物理的な展開には適さない。
現在のアプローチでは、ポリシーのアウトプットを直接正規化することでスムーズさを強制しようと試みている。
このアプローチは原因よりも症状を扱います。
この研究において、政策非平滑性は批判者の微分幾何学によって根本的に支配されていることを理論的に確立する。
アクター批判対象に暗黙的な微分を適用することにより、最適ポリシーの感度は、Q関数の混合部分微分(ノイズ感度)と作用空間曲率(信号の区別性)の比によって境界づけられていることが証明される。
この理論的洞察を実証的に検証するために,批判中心の規則化フレームワークであるPAVE(Policy-Aware Value-field Equalization)を導入する。
PAVEは局所曲率を維持しながらQ段階のボラティリティを最小化して学習信号を補正する。
実験の結果,PAVEはアクターを変更することなく,競争力のあるタスク性能を維持しつつ,ポリシー側スムーズネス正規化手法に匹敵するスムーズさとロバスト性を実現することが示された。
関連論文リスト
- Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - Q-learning with Adjoint Matching [58.78551025170267]
本稿では,新しいTD-based reinforcement learning (RL)アルゴリズムであるAdjoint Matching (QAM) を用いたQ-learningを提案する。
QAMは、最近提案された生成モデリング手法であるadjoint matchingを活用することで、2つの課題を回避している。
オフラインとオフラインの両方のRLにおいて、ハードでスパースな報酬タスクに対する従来のアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-01-20T18:45:34Z) - Stochastic Actor-Critic: Mitigating Overestimation via Temporal Aleatoric Uncertainty [0.0]
強化学習における非政治的アクター批判的手法は、時間差更新で批判者を訓練し、政策(アクター)の学習信号として利用する
現在の手法では、限られたデータとあいまいさをモデル化して悲観的な更新をスケールするため、批評家の不確かさを定量化するためにアンサンブルを用いている。
本研究では, ベルマンにおける遷移, 報酬, および政策による変動から生じる時間的(1つの)アレータ的不確実性を含む, Actor-C (STAC) と呼ばれる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-01-02T16:33:17Z) - Relative Entropy Pathwise Policy Optimization [66.03329137921949]
そこで本稿では,Q値モデルをオンライントラジェクトリから純粋に訓練するオンラインアルゴリズムを提案する。
安定トレーニングのための制約付き更新と探索のためのポリシを組み合わせる方法を示し、価値関数学習を安定化させる重要なアーキテクチャコンポーネントを評価する。
論文 参考訳(メタデータ) (2025-07-15T06:24:07Z) - Accuracy of Discretely Sampled Stochastic Policies in Continuous-time Reinforcement Learning [3.973277434105709]
我々は、個別の時点におけるポリシーからアクションをサンプリングするポリシー実行フレームワークを厳格に分析し、それらを断片的に一定の制御として実装する。
サンプリングメッシュのサイズがゼロになる傾向にあるため、制御された状態過程は、ポリシーに従って係数で動的に弱く収束する。
これらの結果に基づいて、離散時間観測に基づいて、様々な政策勾配推定器のバイアスとばらつきを分析した。
論文 参考訳(メタデータ) (2025-03-13T02:35:23Z) - Overcoming Non-stationary Dynamics with Evidential Proximal Policy Optimization [11.320660946946523]
非定常環境の継続的な制御は、深層強化学習アルゴリズムの大きな課題である。
我々は、明白な批評家と政治上の強化学習を行うことが両立していることを示す。
我々は,政策評価と政策改善の段階において,明らかな不確実性定量化の不可欠な役割から,結果のアルゴリズムであるemphEvidential Proximal Policy Optimization (EPPO) を命名した。
論文 参考訳(メタデータ) (2025-03-03T12:23:07Z) - Unlearning-based Neural Interpretations [51.99182464831169]
静的関数を用いて定義される現在のベースラインは、バイアスがあり、脆弱であり、操作可能であることを示す。
UNIは、学習不可能で、偏りがなく、適応的なベースラインを計算し、入力を最も急な上昇の未学習方向に向けて摂動させることを提案する。
論文 参考訳(メタデータ) (2024-10-10T16:02:39Z) - Mollification Effects of Policy Gradient Methods [16.617678267301702]
政策勾配法が非滑らかな最適化環境をどう動員するかを理解するための厳密な枠組みを開発する。
政策勾配法と逆熱方程式の解法との等価性を実証する。
我々は、この制限と調和解析における不確実性原理の関連性を、RLにおける政策による探索の効果を理解するために作成する。
論文 参考訳(メタデータ) (2024-05-28T05:05:33Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Bounded Robustness in Reinforcement Learning via Lexicographic
Objectives [54.00072722686121]
強化学習における政策の堅牢性は、いかなるコストでも望ましいものではないかもしれない。
本研究では,任意の観測ノイズに対して,政策が最大限に頑健になる方法について検討する。
本稿では,どのような政策アルゴリズムにも適用可能なロバストネス誘導方式を提案する。
論文 参考訳(メタデータ) (2022-09-30T08:53:18Z) - A comment on stabilizing reinforcement learning [0.0]
我々は、Vamvoudakisらは、一般的な政策の下でハミルトニアンに誤った仮定をしたと論じる。
動作ポリシーホールドに一定の条件を課した連続重時間環境下でのニューラルネットワークの収束を示す。
論文 参考訳(メタデータ) (2021-11-24T07:58:14Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。