論文の概要: Delightful Gradients Accelerate Corner Escape
- arxiv url: http://arxiv.org/abs/2605.11908v1
- Date: Tue, 12 May 2026 10:21:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.79422
- Title: Delightful Gradients Accelerate Corner Escape
- Title(参考訳): 快適なグラディエントはコーナーエスケープを加速する
- Authors: Jincheng Mei, Ian Osband,
- Abstract要約: 本研究は,emphDelightful Policy Gradient (DG) について考察する。
我々は、正確な反例を通して、このメカニズムが共有関数近似の下で失敗することを示した。
- 参考スコア(独自算出の注目度): 6.396365507203636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Softmax policy gradient converges at $O(1/t)$, but its transient behavior near sub-optimal corners of the simplex can be exponentially slow. The bottleneck is self-trapping: negative-advantage actions reinforce the corner policy and can initially push the optimal action backward. We study \emph{Delightful Policy Gradient} (DG), which gates each policy-gradient term by the product of advantage and action surprisal. For $K$-armed bandits, we prove that the zero-temperature limit of DG removes this corner-trapping mechanism on a quantitative sector near any sub-optimal corner, yielding a first-exit escape bound logarithmic in the initial probability ratio. At every fixed temperature, the same local mechanism persists because harmful actions are polynomially suppressed as they become rare. A key structural insight is that every action better than the corner action is an \emph{ally}: its contribution to escape is non-negative. Combining corner instability with a monotonic value improvement identity, we prove that DG converges globally to the optimal policy in both bandits and tabular MDPs at an asymptotic $O(1/t)$ rate. We also show, via an exact counterexample, that this tabular mechanism can fail under shared function approximation. In MNIST contextual bandits with a shared-parameter neural network, DG nevertheless recovers from bad initializations faster than standard policy gradient, suggesting that the counterexample marks a boundary of the theory rather than a practical prohibition.
- Abstract(参考訳): ソフトマックスのポリシー勾配は$O(1/t)$で収束するが、単純体の準最適角付近の過渡的な振舞いは指数関数的に遅くなる。
負のアドバンテージアクションはコーナーポリシーを強化し、最初は最適なアクションを後方に押し出すことができる。
そこで我々は,各政策段階の項を,優位性と行動前提の積によってゲートする「emph{Delightful Policy Gradient} (DG)」について検討する。
K$の武器付きバンディットの場合、DGのゼロ温度制限は、任意の準最適角近傍の定量的セクターにおけるこのコーナートラッピング機構を除去し、初期確率比において第一出口境界対数となることを証明している。
どの温度でも、有害な作用が多項式的に抑制されるため、同じ局所メカニズムが持続する。
重要な構造的洞察は、コーナーアクションよりも優れたすべてのアクションは \emph{ally} であり、そのエスケープへの寄与は非負であるということである。
コーナー不安定性とモノトニック値改善IDを組み合わせることで、DGは帯域幅と表状MDPの両方において、漸近的な$O(1/t)$レートで、グローバルに収束することを示す。
また、正確な反例を通して、この表型機構は共有関数近似の下で失敗する可能性があることを示す。
共有パラメータニューラルネットワークを用いたMNISTの文脈的帯域幅では、DGは標準方針勾配よりも早く悪い初期化から回復し、反例は実用的な禁止ではなく理論の境界を示すことを示唆している。
関連論文リスト
- Revisiting Policy Gradients for Restricted Policy Classes: Escaping Myopic Local Optima with $k$-step Policy Gradients [8.64427265159929]
この研究は、制限されたポリシークラスで使用される標準ポリシー勾配メソッドを再考する。
一般化された$k$-stepポリシー勾配法を提案し,そのランダム性を$k$-step時間ウィンドウ内で結合する。
本手法は,最適決定性ポリシーに指数関数的に近い解に収束することが理論的に保証されていることを示す。
論文 参考訳(メタデータ) (2026-05-11T17:49:09Z) - Delightful Policy Gradient [1.1886634182318419]
標準政策は、その行動が現在の政策の下にある可能性に関係なく、各アクションを単独でサンプリングした。
textitDelightful Policy Gradient (DG)を導入し、Emphdelightのシグミド、利点の産物、およびアクション・サプライサル(負の対数確率)を各項にゲートする。
$Kの武器を持つ包帯の場合、DGは単一のコンテキストにおける方向精度を確実に改善し、複数のコンテキストにわたって、期待される勾配を教師付きクロスエントロピーオラクルに近づける。
論文 参考訳(メタデータ) (2026-03-15T21:06:37Z) - Adaptive, Doubly Optimal No-Regret Learning in Strongly Monotone and Exp-Concave Games with Gradient Feedback [75.29048190099523]
オンライン勾配降下(OGD)は、強い凸性や単調性仮定の下では二重最適であることが知られている。
本稿では,これらのパラメータの事前知識を必要としない完全適応型OGDアルゴリズム,textsfAdaOGDを設計する。
論文 参考訳(メタデータ) (2023-10-21T18:38:13Z) - Achieving Zero Constraint Violation for Constrained Reinforcement Learning via Conservative Natural Policy Gradient Primal-Dual Algorithm [42.83837408373223]
連続状態-作用空間におけるマルコフ決定過程(CMDP)の問題点を考察する。
本稿では,ゼロ制約違反を実現するために,新しい保守的自然ポリシーグラディエント・プライマル・ダイアルアルゴリズム(C-NPG-PD)を提案する。
論文 参考訳(メタデータ) (2022-06-12T22:31:43Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。