論文の概要: Stabilizing the Q-Gradient Field for Policy Smoothness in Actor-Critic
- arxiv url: http://arxiv.org/abs/2601.22970v1
- Date: Fri, 30 Jan 2026 13:32:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.471722
- Title: Stabilizing the Q-Gradient Field for Policy Smoothness in Actor-Critic
- Title(参考訳): アクター臨界における政策平滑性のためのQ勾配場の安定化
- Authors: Jeong Woon Lee, Kyoleen Kwak, Daeho Kim, Hyoseok Hwang,
- Abstract要約: 政策非平滑性は批評家の微分幾何学によって支配されていると論じる。
批判中心の正規化フレームワークであるPAVEを紹介する。
PAVEは局所曲率を維持しながらQ段階のボラティリティを最小化して学習信号を補正する。
- 参考スコア(独自算出の注目度): 7.536387580547838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Policies learned via continuous actor-critic methods often exhibit erratic, high-frequency oscillations, making them unsuitable for physical deployment. Current approaches attempt to enforce smoothness by directly regularizing the policy's output. We argue that this approach treats the symptom rather than the cause. In this work, we theoretically establish that policy non-smoothness is fundamentally governed by the differential geometry of the critic. By applying implicit differentiation to the actor-critic objective, we prove that the sensitivity of the optimal policy is bounded by the ratio of the Q-function's mixed-partial derivative (noise sensitivity) to its action-space curvature (signal distinctness). To empirically validate this theoretical insight, we introduce PAVE (Policy-Aware Value-field Equalization), a critic-centric regularization framework that treats the critic as a scalar field and stabilizes its induced action-gradient field. PAVE rectifies the learning signal by minimizing the Q-gradient volatility while preserving local curvature. Experimental results demonstrate that PAVE achieves smoothness and robustness comparable to policy-side smoothness regularization methods, while maintaining competitive task performance, without modifying the actor.
- Abstract(参考訳): 連続的なアクター批判的手法を通じて学んだポリシーは、しばしば不規則で高周波の振動を示し、物理的な展開には適さない。
現在のアプローチでは、ポリシーのアウトプットを直接正規化することでスムーズさを強制しようと試みている。
このアプローチは原因よりも症状を扱います。
この研究において、政策非平滑性は批判者の微分幾何学によって根本的に支配されていることを理論的に確立する。
アクター批判対象に暗黙的な微分を適用することにより、最適ポリシーの感度は、Q関数の混合部分微分(ノイズ感度)と作用空間曲率(信号の区別性)の比によって境界づけられていることが証明される。
この理論的洞察を実証的に検証するために,批判中心の規則化フレームワークであるPAVE(Policy-Aware Value-field Equalization)を導入する。
PAVEは局所曲率を維持しながらQ段階のボラティリティを最小化して学習信号を補正する。
実験の結果,PAVEはアクターを変更することなく,競争力のあるタスク性能を維持しつつ,ポリシー側スムーズネス正規化手法に匹敵するスムーズさとロバスト性を実現することが示された。
関連論文リスト
- Q-learning with Adjoint Matching [58.78551025170267]
本稿では,新しいTD-based reinforcement learning (RL)アルゴリズムであるAdjoint Matching (QAM) を用いたQ-learningを提案する。
QAMは、最近提案された生成モデリング手法であるadjoint matchingを活用することで、2つの課題を回避している。
オフラインとオフラインの両方のRLにおいて、ハードでスパースな報酬タスクに対する従来のアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-01-20T18:45:34Z) - Stochastic Actor-Critic: Mitigating Overestimation via Temporal Aleatoric Uncertainty [0.0]
強化学習における非政治的アクター批判的手法は、時間差更新で批判者を訓練し、政策(アクター)の学習信号として利用する
現在の手法では、限られたデータとあいまいさをモデル化して悲観的な更新をスケールするため、批評家の不確かさを定量化するためにアンサンブルを用いている。
本研究では, ベルマンにおける遷移, 報酬, および政策による変動から生じる時間的(1つの)アレータ的不確実性を含む, Actor-C (STAC) と呼ばれる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-01-02T16:33:17Z) - Relative Entropy Pathwise Policy Optimization [66.03329137921949]
そこで本稿では,Q値モデルをオンライントラジェクトリから純粋に訓練するオンラインアルゴリズムを提案する。
安定トレーニングのための制約付き更新と探索のためのポリシを組み合わせる方法を示し、価値関数学習を安定化させる重要なアーキテクチャコンポーネントを評価する。
論文 参考訳(メタデータ) (2025-07-15T06:24:07Z) - Overcoming Non-stationary Dynamics with Evidential Proximal Policy Optimization [11.320660946946523]
非定常環境の継続的な制御は、深層強化学習アルゴリズムの大きな課題である。
我々は、明白な批評家と政治上の強化学習を行うことが両立していることを示す。
我々は,政策評価と政策改善の段階において,明らかな不確実性定量化の不可欠な役割から,結果のアルゴリズムであるemphEvidential Proximal Policy Optimization (EPPO) を命名した。
論文 参考訳(メタデータ) (2025-03-03T12:23:07Z) - Unlearning-based Neural Interpretations [51.99182464831169]
静的関数を用いて定義される現在のベースラインは、バイアスがあり、脆弱であり、操作可能であることを示す。
UNIは、学習不可能で、偏りがなく、適応的なベースラインを計算し、入力を最も急な上昇の未学習方向に向けて摂動させることを提案する。
論文 参考訳(メタデータ) (2024-10-10T16:02:39Z) - Mollification Effects of Policy Gradient Methods [16.617678267301702]
政策勾配法が非滑らかな最適化環境をどう動員するかを理解するための厳密な枠組みを開発する。
政策勾配法と逆熱方程式の解法との等価性を実証する。
我々は、この制限と調和解析における不確実性原理の関連性を、RLにおける政策による探索の効果を理解するために作成する。
論文 参考訳(メタデータ) (2024-05-28T05:05:33Z) - Bounded Robustness in Reinforcement Learning via Lexicographic
Objectives [54.00072722686121]
強化学習における政策の堅牢性は、いかなるコストでも望ましいものではないかもしれない。
本研究では,任意の観測ノイズに対して,政策が最大限に頑健になる方法について検討する。
本稿では,どのような政策アルゴリズムにも適用可能なロバストネス誘導方式を提案する。
論文 参考訳(メタデータ) (2022-09-30T08:53:18Z) - A comment on stabilizing reinforcement learning [0.0]
我々は、Vamvoudakisらは、一般的な政策の下でハミルトニアンに誤った仮定をしたと論じる。
動作ポリシーホールドに一定の条件を課した連続重時間環境下でのニューラルネットワークの収束を示す。
論文 参考訳(メタデータ) (2021-11-24T07:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。