論文の概要: Distributionally-Constrained Policy Optimization via Unbalanced Optimal
Transport
- arxiv url: http://arxiv.org/abs/2102.07889v1
- Date: Mon, 15 Feb 2021 23:04:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 15:01:28.802897
- Title: Distributionally-Constrained Policy Optimization via Unbalanced Optimal
Transport
- Title(参考訳): 不均衡最適輸送による分散制約政策最適化
- Authors: Arash Givchi, Pei Wang, Junqi Wang, Patrick Shafto
- Abstract要約: 入居対策の空間における不均衡な最適輸送として政策最適化を策定します。
Bregman発散に基づく汎用RL目標を提案し,Dykstraのアルゴリズムを用いて最適化する。
- 参考スコア(独自算出の注目度): 15.294456568539148
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider constrained policy optimization in Reinforcement Learning, where
the constraints are in form of marginals on state visitations and global action
executions. Given these distributions, we formulate policy optimization as
unbalanced optimal transport over the space of occupancy measures. We propose a
general purpose RL objective based on Bregman divergence and optimize it using
Dykstra's algorithm. The approach admits an actor-critic algorithm for when the
state or action space is large, and only samples from the marginals are
available. We discuss applications of our approach and provide demonstrations
to show the effectiveness of our algorithm.
- Abstract(参考訳): 我々は、強化学習における制約されたポリシーの最適化を検討する。そこでは、制約は状態訪問とグローバルな行動実行の限界の形態である。
これらの分布を仮定し、占有測度の空間上の不均衡最適輸送として政策最適化を定式化する。
Bregman発散に基づく汎用RL目標を提案し,Dykstraのアルゴリズムを用いて最適化する。
このアプローチは、状態またはアクション空間が大きい場合のアクタークリティカルアルゴリズムを認め、限界からのサンプルのみが利用可能である。
提案手法の応用を議論し,提案アルゴリズムの有効性を示す実演を行う。
関連論文リスト
- Truncating Trajectories in Monte Carlo Reinforcement Learning [48.97155920826079]
強化学習(RL)において、エージェントは未知の環境で動作し、外部報酬信号の期待累積割引和を最大化する。
我々は,異なる長さの軌跡の収集につながるアプリオリ予算配分戦略を提案する。
軌道の適切な切り離しが性能向上に成功することを示す。
論文 参考訳(メタデータ) (2023-05-07T19:41:57Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
我々は、振る舞い制約が自然に一階Taylor近似の使用を動機付けているという新しい観察を行う。
我々は、LogSumExpの下位境界とJensenの不等式を活用することで、誘導最適化の難しさを克服する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Trust Region Policy Optimization with Optimal Transport Discrepancies:
Duality and Algorithm for Continuous Actions [5.820284464296154]
信頼地域政策最適化(Trust Region Policy Optimization)は、政策更新を安定化するための一般的なアプローチである。
本稿では,連続状態対応空間のための新しいアルゴリズム,OT-TRPO(Optimal Transport Trust Region Policy Optimization)を提案する。
以上の結果から,輸送の相違は最先端のアプローチよりも有利であることが示唆された。
論文 参考訳(メタデータ) (2022-10-20T10:04:35Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Near Optimal Policy Optimization via REPS [33.992374484681704]
emphrelative entropy policy search (reps) は多くのシミュレーションと実世界のロボットドメインでポリシー学習に成功した。
勾配に基づく解法を用いる場合、REPSの性能には保証がない。
最適規則化ポリシーに好適な収束を維持するためのパラメータ更新を計算するために,基礎となる決定プロセスへの表現的アクセスを利用する手法を提案する。
論文 参考訳(メタデータ) (2021-03-17T16:22:59Z) - Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。
変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。
我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-10-20T23:25:42Z) - Optimistic Distributionally Robust Policy Optimization [2.345728642535161]
Trust Region Policy Optimization (TRPO) と Proximal Policy Optimization (PPO) は、特定のパラメトリック分布クラスにポリシー表現を制限するため、準最適解に収束する傾向にある。
そこで我々は,信頼領域制約最適化問題をパラメータ化せずに解くために,最適分布ロバストポリシ最適化(ODRO)アルゴリズムを開発した。
提案アルゴリズムは, TRPOとPPOを改良し, 学習安定性を確保しつつ, サンプル効率の向上と最終方針の性能向上を実現した。
論文 参考訳(メタデータ) (2020-06-14T06:36:18Z) - Distributed Averaging Methods for Randomized Second Order Optimization [54.51566432934556]
我々はヘッセン語の形成が計算的に困難であり、通信がボトルネックとなる分散最適化問題を考察する。
我々は、ヘッセンのサンプリングとスケッチを用いたランダム化二階最適化のための非バイアスパラメータ平均化手法を開発した。
また、不均一なコンピューティングシステムのための非バイアス分散最適化フレームワークを導入するために、二階平均化手法のフレームワークを拡張した。
論文 参考訳(メタデータ) (2020-02-16T09:01:18Z) - A Kernel Mean Embedding Approach to Reducing Conservativeness in
Stochastic Programming and Control [13.739881592455044]
カーネルの平均埋め込み法をサンプルベース最適化と制御に適用する。
このような制約除去の効果は、最適性を改善し、保守性を低下させる。
論文 参考訳(メタデータ) (2020-01-28T15:11:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。