論文の概要: Differentiable Trust Region Layers for Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2101.09207v2
- Date: Tue, 9 Mar 2021 08:44:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-20 17:12:46.336184
- Title: Differentiable Trust Region Layers for Deep Reinforcement Learning
- Title(参考訳): 深層強化学習のための異なる信頼領域層
- Authors: Fabian Otto, Philipp Becker, Ngo Anh Vien, Hanna Carolin Ziesche, and
Gerhard Neumann
- Abstract要約: 我々は,クローズドフォーム射影による深いガウスポリシーの信頼領域を強制するために,微分可能なニューラルネットワーク層を提案する。
Kullback-Leibler発散、Wasserstein L2距離、およびガウス分布に対するフロベニウスノルムに基づく信頼地域予測を導出する。
- 参考スコア(独自算出の注目度): 19.33011160278043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Trust region methods are a popular tool in reinforcement learning as they
yield robust policy updates in continuous and discrete action spaces. However,
enforcing such trust regions in deep reinforcement learning is difficult.
Hence, many approaches, such as Trust Region Policy Optimization (TRPO) and
Proximal Policy Optimization (PPO), are based on approximations. Due to those
approximations, they violate the constraints or fail to find the optimal
solution within the trust region. Moreover, they are difficult to implement,
often lack sufficient exploration, and have been shown to depend on seemingly
unrelated implementation choices. In this work, we propose differentiable
neural network layers to enforce trust regions for deep Gaussian policies via
closed-form projections. Unlike existing methods, those layers formalize trust
regions for each state individually and can complement existing reinforcement
learning algorithms. We derive trust region projections based on the
Kullback-Leibler divergence, the Wasserstein L2 distance, and the Frobenius
norm for Gaussian distributions. We empirically demonstrate that those
projection layers achieve similar or better results than existing methods while
being almost agnostic to specific implementation choices. The code is available
at https://git.io/Jthb0.
- Abstract(参考訳): 信頼領域メソッドは、連続的および離散的なアクションスペースにおいて堅牢なポリシー更新を提供するため、強化学習において一般的なツールである。
しかし,このような信頼領域を深層強化学習で強制することは困難である。
したがって、信頼地域政策最適化(TRPO)やPPO(Pximal Policy Optimization)といった多くのアプローチは近似に基づいている。
これらの近似により、それらは制約を破ったり、信頼領域内で最適な解を見つけられなかったりする。
さらに、それらは実装が難しく、しばしば十分な探索ができず、一見無関係な実装の選択に依存することが示されている。
本研究では,クローズド・フォーム・プロジェクションによる深いガウス政策の信頼領域を強制するニューラルネットワーク層を提案する。
既存の方法とは異なり、これらのレイヤは各状態の信頼領域を個別に形式化し、既存の強化学習アルゴリズムを補完することができる。
ガウス分布に対するkullback-leiblerの発散、wasserstein l2距離、およびフロベニウスノルムに基づく信頼領域の射影を導出する。
我々は、これらのプロジェクション層が、特定の実装選択にほとんど依存せず、既存のメソッドと類似またはより良い結果が得られることを実証的に示す。
コードはhttps://git.io/jthb0で入手できる。
関連論文リスト
- Diffusion Policies creating a Trust Region for Offline Reinforcement Learning [66.17291150498276]
本稿では,拡散信頼型Q-Learning (DTQL) という2つの政策アプローチを導入する。
DTQLは、トレーニングと推論の両方において反復的なデノレーションサンプリングの必要性を排除し、計算的に極めて効率的である。
DTQLは、D4RLベンチマークタスクの大部分において、他のメソッドよりも優れているだけでなく、トレーニングや推論速度の効率性も示すことができる。
論文 参考訳(メタデータ) (2024-05-30T05:04:33Z) - Image Copy-Move Forgery Detection via Deep PatchMatch and Pairwise Ranking Learning [39.85737063875394]
本研究では,従来の学習手法と深層学習手法の強みを統合した,エンドツーエンドのCMFDフレームワークを開発した。
既存のディープモデルとは異なり,提案手法では,高分解能スケールから抽出した特徴を利用して,明示的で信頼性の高いポイント・ツー・ポイントマッチングを求める。
このフレームワークは、ポイント・ツー・ポイントマッチングの強い先行性を活用することで、微妙な違いを識別し、ソースとターゲットの領域を効果的に識別することができる。
論文 参考訳(メタデータ) (2024-04-26T10:38:17Z) - Guaranteed Trust Region Optimization via Two-Phase KL Penalization [11.008537121214104]
我々は,KLの罰則の適用だけでは,信頼領域を強制するのに十分であることを示す。
そして、すべてのポリシー更新で信頼領域が強制されることを保証するのに、"修正"フェーズの導入が十分であることを示す。
FixPOと呼ばれる結果のアルゴリズムは、さまざまなポリシーアーキテクチャやアクションスペースをトレーニングすることができます。
論文 参考訳(メタデータ) (2023-12-08T23:29:57Z) - Supported Trust Region Optimization for Offline Reinforcement Learning [59.43508325943592]
本稿では,行動方針の支持範囲内で制約された政策を用いて信頼地域政策の最適化を行う,信頼地域最適化(STR)を提案する。
近似やサンプリング誤差を仮定すると、STRはデータセットの最適サポート制約ポリシーに収束するまで厳密なポリシー改善を保証する。
論文 参考訳(メタデータ) (2023-11-15T13:16:16Z) - Provably Convergent Policy Optimization via Metric-aware Trust Region
Methods [21.950484108431944]
信頼領域法は、強化学習における政策最適化の安定化に広く用いられている。
我々は、より柔軟なメトリクスを活用し、ワッサーシュタインとシンクホーンの信頼領域によるポリシー最適化の2つの自然な拡張について検討する。
WPOは単調な性能向上を保証し、SPOはエントロピー正則化器が減少するにつれてWPOに確実に収束することを示す。
論文 参考訳(メタデータ) (2023-06-25T05:41:38Z) - Trust-Region-Free Policy Optimization for Stochastic Policies [60.52463923712565]
本研究では,政策に対する信頼領域の制約が,基礎となるモノトニック改善の保証を損なうことなく,信頼領域のない制約によって安全に置き換えられることを示す。
我々は,TREFree(Trust-Region-Free Policy Optimization)と呼ばれるアルゴリズムを,信頼領域の制約が不要であるとして明示する。
論文 参考訳(メタデータ) (2023-02-15T23:10:06Z) - Diversity Through Exclusion (DTE): Niche Identification for
Reinforcement Learning through Value-Decomposition [63.67574523750839]
本稿では,多変量ニッチ環境におけるベースライン深度Q-ラーニングアルゴリズムよりも優れた汎用強化学習(RL)アルゴリズムを提案する。
この方法で訓練されたエージェントは、貧弱だが魅力ある局所最適化から逃れて、より高い価値戦略の発見を困難にすることを示します。
論文 参考訳(メタデータ) (2023-02-02T16:00:19Z) - Dealing with Non-Stationarity in Multi-Agent Reinforcement Learning via
Trust Region Decomposition [52.06086375833474]
非定常性は多エージェント強化学習における厄介な問題である。
ポリシーシーケンスの定常性を明示的にモデル化するための$delta$-stationarity測定を導入する。
共同政策の分岐を推定するために,メッセージパッシングに基づく信頼領域分解ネットワークを提案する。
論文 参考訳(メタデータ) (2021-02-21T14:46:50Z) - Deep Reinforcement Learning with Robust and Smooth Policy [90.78795857181727]
我々は、国家に対して円滑に振る舞う円滑な政策を学ぶことを提案する。
textbfSmooth textbfRegularized textbfReinforcement textbfLearning(textbfSR2textbfL$)という新しいフレームワークを開発し、スムーズな正規化によってポリシーを訓練する。
このような正規化は、探索空間を効果的に制限し、学習ポリシーの滑らかさを強制する。
論文 参考訳(メタデータ) (2020-03-21T00:10:29Z) - Quasi-Newton Trust Region Policy Optimization [5.9999375710781]
ヘッセン語に対する準ニュートン近似を用いた政策最適化のための信頼領域法を提案する。
勾配降下は、連続的な制御を伴う強化学習タスクのデファクトアルゴリズムである。
論文 参考訳(メタデータ) (2019-12-26T18:29:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。