Fugu-MT 論文翻訳(概要): Dual Approximation Policy Optimization

論文の概要: Dual Approximation Policy Optimization

arxiv url: http://arxiv.org/abs/2410.01249v1
Date: Wed, 2 Oct 2024 05:49:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-04 22:18:46.959014
Title: Dual Approximation Policy Optimization
Title（参考訳）: 双対近似ポリシ最適化
Authors: Zhihan Xiong, Maryam Fazel, Lin Xiao,
Abstract要約: 本稿では、一般関数近似をポリシーミラー降下法に組み込んだフレームワークであるDual Approximation Policy Optimization (DAPO)を提案する。この双対性フレームワークは理論的および実践的両方の意味を持つ。
参考スコア（独自算出の注目度）: 20.787309027373208
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose Dual Approximation Policy Optimization (DAPO), a framework that incorporates general function approximation into policy mirror descent methods. In contrast to the popular approach of using the $L_2$-norm to measure function approximation errors, DAPO uses the dual Bregman divergence induced by the mirror map for policy projection. This duality framework has both theoretical and practical implications: not only does it achieve fast linear convergence with general function approximation, but it also includes several well-known practical methods as special cases, immediately providing strong convergence guarantees.
Abstract（参考訳）: 本稿では、一般関数近似をポリシーミラー降下法に組み込んだフレームワークであるDual Approximation Policy Optimization (DAPO)を提案する。関数近似誤差を測定するために$L_2$-normを使用する一般的なアプローチとは対照的に、DAPOはミラーマップによって誘導される二重ブレグマン発散をポリシー投影に使用する。この双対性フレームワークは、理論的および実用的両方の意味を持ち、一般関数近似による高速線型収束を達成するだけでなく、特殊ケースとしてよく知られたいくつかの実践的手法も含み、すぐに強い収束を保証する。

関連論文リスト

Convergence and Sample Complexity of First-Order Methods for Agnostic Reinforcement Learning [66.4260157478436]
政策学習における強化学習について検討する。目的は、特定の種類の利害関係において最高の政策と競争力のある政策を見つけることである。
論文参考訳（メタデータ） (2025-07-06T14:40:05Z)
Convergence of Policy Mirror Descent Beyond Compatible Function Approximation [66.4260157478436]
我々は,より弱い変動支配を前提とした理論的PMD一般政策クラスを開発し,最良クラス政策への収束を得る。我々の主観念は、占有度-勾配測度によって誘導される局所ノルムによって誘導される新しい概念を活用する。
論文参考訳（メタデータ） (2025-02-16T08:05:46Z)
Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。この障壁を克服する斬新でシンプルな推定器を提示する。
論文参考訳（メタデータ） (2025-01-30T22:29:41Z)
Strongly-polynomial time and validation analysis of policy gradient methods [3.722665817361884]
本稿では,有限状態および行動マルコフ決定過程(MDP)と強化学習(RL)のための,優位ギャップ関数と呼ばれる新しい終了基準を提案する。この利点ギャップ関数をステップサイズルールの設計に組み込むことで、最適ポリシーの定常状態分布に依存しない新しい線形収束率を導出する。政策勾配法に対してそのような強い収束特性が確立されたのはこれが初めてである。
論文参考訳（メタデータ） (2024-09-28T18:56:48Z)
Convergence of a L2 regularized Policy Gradient Algorithm for the Multi Armed Bandit [0.0]
一方のマルチアームバンド(MAB)と他方のポリシー勾配アプローチは、強化学習の最もよく使われるフレームワークである。この研究において、$L2$正規化項が'softmax'パラメトリゼーションと共同で存在する状況に対するそのような手順の収束について検討する。
論文参考訳（メタデータ） (2024-02-09T13:10:04Z)
Provably Convergent Policy Optimization via Metric-aware Trust Region Methods [21.950484108431944]
信頼領域法は、強化学習における政策最適化の安定化に広く用いられている。我々は、より柔軟なメトリクスを活用し、ワッサーシュタインとシンクホーンの信頼領域によるポリシー最適化の2つの自然な拡張について検討する。 WPOは単調な性能向上を保証し、SPOはエントロピー正則化器が減少するにつれてWPOに確実に収束することを示す。
論文参考訳（メタデータ） (2023-06-25T05:41:38Z)
Last-Iterate Convergent Policy Gradient Primal-Dual Methods for Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文参考訳（メタデータ） (2023-06-20T17:27:31Z)
Local Optimization Achieves Global Optimality in Multi-Agent Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文参考訳（メタデータ） (2023-05-08T16:20:03Z)
Policy Optimization over General State and Action Spaces [3.722665817361884]
一般的な状態や行動空間に対する強化学習(RL)問題は非常に難しい。まず,最近開発された一般状態と行動空間を扱うために,政策ミラー降下法をかなり一般化した手法を提案する。本手法に関数近似を組み込む新しい手法を導入し、明示的なポリシーパラメータ化を全く必要としない。
論文参考訳（メタデータ） (2022-11-30T03:44:44Z)
Linear Convergence of Natural Policy Gradient Methods with Log-Linear Policies [115.86431674214282]
我々は、無限水平割引マルコフ決定過程を考察し、自然政策勾配(NPG)とQ-NPG法の収束率を対数線形ポリシークラスで検討する。両手法が線形収束率と $mathcalO (1/epsilon2)$サンプル複雑度を, 単純で非適応的な幾何的に増加するステップサイズを用いて達成できることを示す。
論文参考訳（メタデータ） (2022-10-04T06:17:52Z)
Proximal Point Imitation Learning [48.50107891696562]
我々は、無限地平線模倣学習のための厳密な効率保証を備えた新しいアルゴリズムを開発した。我々は、最適化、特に近点法(PPM)と双対平滑化から古典的ツールを活用する。線形関数とニューラルネットワーク関数の近似の双方に対して、説得力のある経験的性能を実現する。
論文参考訳（メタデータ） (2022-09-22T12:40:21Z)
Optimistic Policy Optimization is Provably Efficient in Non-stationary MDPs [113.8752163061151]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究線形最適化アンダーライン最適化アルゴリズム(PROPO)を提案する。 PROPOはスライディングウィンドウベースのポリシー評価と周期的リスタートベースのポリシー改善の2つのメカニズムを特徴としている。
論文参考訳（メタデータ） (2021-10-18T02:33:20Z)
Policy Mirror Descent for Regularized Reinforcement Learning: A Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文参考訳（メタデータ） (2021-05-24T02:21:34Z)
Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文参考訳（メタデータ） (2021-03-22T03:16:33Z)
Convergence Proof for Actor-Critic Methods Applied to PPO and RUDDER [6.9478331974594045]
我々は、よく知られたPPOと最近導入されたRUDDERの収束性を示す。本研究は, エピソード標本を用いたアクター批判的手法に有効であり, 学習中により欲求的になる方針を持つ。
論文参考訳（メタデータ） (2020-12-02T18:47:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。