論文の概要: How Log-Barrier Helps Exploration in Policy Optimization
- arxiv url: http://arxiv.org/abs/2603.15001v1
- Date: Mon, 16 Mar 2026 09:05:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:57.895725
- Title: How Log-Barrier Helps Exploration in Policy Optimization
- Title(参考訳): ログバリアが政策最適化の探索にどのように役立つか
- Authors: Leonardo Cesani, Matteo Papini, Marcello Restelli,
- Abstract要約: Gradient Bandit (SGB) アルゴリズムは、一定の学習率でグローバルに最適なポリシーに収束する。
本稿では, パラメトリックポリシーのログバリアによるSGB目標の正規化を提案し, 最小限の探索量で構成する。
本稿では,ログバリアの正規化と自然政策のグラディエントとの関係を示す。
- 参考スコア(独自算出の注目度): 41.91746523717205
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, it has been shown that the Stochastic Gradient Bandit (SGB) algorithm converges to a globally optimal policy with a constant learning rate. However, these guarantees rely on unrealistic assumptions about the learning process, namely that the probability of the optimal action is always bounded away from zero. We attribute this to the lack of an explicit exploration mechanism in SGB. To address these limitations, we propose to regularize the SGB objective with a log-barrier on the parametric policy, structurally enforcing a minimal amount of exploration. We prove that Log-Barrier Stochastic Gradient Bandit (LB-SGB) matches the sample complexity of SGB, but also converges (at a slower rate) without any assumptions on the learning process. We also show a connection between the log-barrier regularization and Natural Policy Gradient, as both exploit the geometry of the policy space by controlling the Fisher information. We validate our theoretical findings through numerical simulations, showing the benefits of the log-barrier regularization.
- Abstract(参考訳): 近年,確率勾配帯域幅 (SGB) アルゴリズムは, 学習速度を一定に保ち, グローバルな最適ポリシに収束することが示されている。
しかし、これらの保証は学習過程に関する非現実的な仮定に依存しており、すなわち、最適な行動の確率は常にゼロから遠ざかっている。
これは、SGBに明示的な探索機構がないためである。
これらの制約に対処するため,パラメトリック・ポリシーのログバリアを用いてSGB目標を正規化し,最小限の探索を構造的に実施することを提案する。
ログバリア確率勾配帯域(LB-SGB)は,SGBのサンプル複雑性と一致するが,学習過程の仮定を伴わずに収束する(緩やかな速度で)。
また,水産情報を制御することで政策空間の幾何を利用するため,ログバリア正規化と自然政策グラディエントとの関係を示す。
数値シミュレーションにより, 対数バリア正則化の利点を実証し, 理論的知見を検証した。
関連論文リスト
- Accuracy of Discretely Sampled Stochastic Policies in Continuous-time Reinforcement Learning [3.973277434105709]
我々は、個別の時点におけるポリシーからアクションをサンプリングするポリシー実行フレームワークを厳格に分析し、それらを断片的に一定の制御として実装する。
サンプリングメッシュのサイズがゼロになる傾向にあるため、制御された状態過程は、ポリシーに従って係数で動的に弱く収束する。
これらの結果に基づいて、離散時間観測に基づいて、様々な政策勾配推定器のバイアスとばらつきを分析した。
論文 参考訳(メタデータ) (2025-03-13T02:35:23Z) - Small steps no more: Global convergence of stochastic gradient bandits for arbitrary learning rates [61.091122503406304]
勾配帯域幅アルゴリズムは, 経験的定値学習率を用いて, ほぼ確実にグローバルな最適ポリシーに収束することを示す。
この結果は、標準の滑らかさと騒音制御の仮定が崩壊するシナリオにおいても、勾配アルゴリズムが適切な探索と利用のバランスを保ち続けていることを証明している。
論文 参考訳(メタデータ) (2025-02-11T00:12:04Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Safe Exploration Incurs Nearly No Additional Sample Complexity for
Reward-free RL [43.672794342894946]
Reward-free reinforcement learning (RF-RL) は、未知の環境を探索するランダムなアクションテイクに依存する。
このような安全な探索要求が、得られた政策の計画における望ましい最適性を達成するために、対応するサンプルの複雑さにどのように影響するかは、いまだ不明である。
本稿では,Safe reWard-frEe ExploraTion (SWEET) フレームワークを提案し,Tabular-SWEET と Low-rank-SWEET というアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-28T15:00:45Z) - Optimal Learning Rates for Regularized Least-Squares with a Fourier
Capacity Condition [14.910167993978487]
我々は、ヒルベルトスケールにおけるTikhonov-regularized Learning問題の新しいクラスに対して、ミニマックス適応率を導出する。
我々は、メルサー作用素のスペクトルが適切なヒルベルトスケールの「タイト」埋め込みの存在下で推測できることを実証する。
論文 参考訳(メタデータ) (2022-04-16T18:32:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。