論文の概要: Actor-critic is implicitly biased towards high entropy optimal policies
- arxiv url: http://arxiv.org/abs/2110.11280v1
- Date: Thu, 21 Oct 2021 17:06:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 17:33:39.116526
- Title: Actor-critic is implicitly biased towards high entropy optimal policies
- Title(参考訳): アクター批判は暗黙的に高エントロピー最適ポリシーに偏っている
- Authors: Yuzheng Hu, Ziwei Ji, Matus Telgarsky
- Abstract要約: 線形MDPとの相互作用によってTDに更新された線形ソフトマックスポリシーである、最も単純なアクター批判法は、高いエントロピー最適ポリシーを好むことを示す。
このアルゴリズムは正規化もプロジェクションも無く、$epsilon$-greedyのような探索もないだけでなく、リセットのない単一軌道で訓練されている。
- 参考スコア(独自算出の注目度): 32.697634000764786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We show that the simplest actor-critic method -- a linear softmax policy
updated with TD through interaction with a linear MDP, but featuring no
explicit regularization or exploration -- does not merely find an optimal
policy, but moreover prefers high entropy optimal policies. To demonstrate the
strength of this bias, the algorithm not only has no regularization, no
projections, and no exploration like $\epsilon$-greedy, but is moreover trained
on a single trajectory with no resets. The key consequence of the high entropy
bias is that uniform mixing assumptions on the MDP, which exist in some form in
all prior work, can be dropped: the implicit regularization of the high entropy
bias is enough to ensure that all chains mix and an optimal policy is reached
with high probability. As auxiliary contributions, this work decouples concerns
between the actor and critic by writing the actor update as an explicit mirror
descent, provides tools to uniformly bound mixing times within KL balls of
policy space, and provides a projection-free TD analysis with its own implicit
bias which can be run from an unmixed starting distribution.
- Abstract(参考訳): 我々は,最も単純なアクタ・クリティックな手法である線形mdpとの相互作用によりtdで更新されるリニア・ソフトマックス・ポリシーは,単に最適なポリシーを見つけるだけでなく,高いエントロピーの最適ポリシーを好むことを示した。
このバイアスの強さを示すために、アルゴリズムは正規化もプロジェクションも行わず、$\epsilon$-greedyのような探索も行わない。
高いエントロピーバイアスの鍵となる結果は、全ての先行研究において何らかの形で存在するMDP上の均一な混合仮定を下げることである: 高いエントロピーバイアスの暗黙の正規化は、すべての連鎖と最適なポリシーが高い確率で混合されることを保証するのに十分である。
補助的な貢献として、アクター更新を明示的なミラー降下として記述することでアクターと批評家の懸念を分離し、ポリシー空間のKL球内での混合時間を均一に拘束するツールを提供し、未混合開始分布から実行できる独自の暗黙のバイアスを持つプロジェクションフリーなTD分析を提供する。
関連論文リスト
- Off-Policy Evaluation in Markov Decision Processes under Weak
Distributional Overlap [5.0401589279256065]
本稿では,マルコフ決定過程(MDP)における非政治的評価の課題を再検討する。
本稿では,この環境での良好な性能を期待できる2重頑健性(TDR)推定器のクラスを紹介する。
論文 参考訳(メタデータ) (2024-02-13T03:55:56Z) - Offline Imitation Learning with Suboptimal Demonstrations via Relaxed
Distribution Matching [109.5084863685397]
オフライン模倣学習(IL)は、環境と相互作用することなく、事前にコンパイルされたデモからパフォーマンスポリシーを学習する機能を提供する。
非対称な f-分割を明示的なサポート正規化に用いたRelaxDICEを提案する。
提案手法は,6つの標準連続制御環境において,最上位のオフライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-03-05T03:35:11Z) - Debiasing the Cloze Task in Sequential Recommendation with Bidirectional
Transformers [0.0]
Inverse Propensity Scoring (IPS) は、問題の時間的性質を考慮しないため、逐次的なレコメンデーションに拡張されない。
そこで我々は,Clozeタスクの逐次的推奨を理論的に無視できる新しい確率スコアリング機構を提案する。
論文 参考訳(メタデータ) (2023-01-22T21:44:25Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - Policy learning "without'' overlap: Pessimism and generalized empirical
Bernstein's inequality [107.84979976896912]
オフライン政策学習は、収集された優先順位を利用して、最適な個別化決定ルールを学ぶことを目的としている。
既存のポリシー学習手法は、一様重なりの仮定、すなわち、すべての個々の特性に対する全てのアクションを探索する確率は、オフラインデータセットにおいて低い境界となる。
本稿では,政策値の点推定ではなく,低信頼境界(LCB)を最適化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Global Optimality and Finite Sample Analysis of Softmax Off-Policy Actor
Critic under State Distribution Mismatch [29.02336004872336]
我々は、非政治アクター批評家アルゴリズムのグローバル最適性と収束率を確立する。
私たちの研究は、政策勾配法の最適性に関する既存の研究を超えています。
論文 参考訳(メタデータ) (2021-11-04T16:48:45Z) - Beyond Exact Gradients: Convergence of Stochastic Soft-Max Policy
Gradient Methods with Entropy Regularization [9.622367651590878]
古典的エントロピー正規化政策勾配法をソフトマックス政策パラメトリゼーションで再検討する。
エントロピー項によって導入された対数的ポリシー報酬により、推定子自身は一般に非有界であることが証明されるが、分散は一様有界である。
これにより、定常点と大域的最適ポリシーの両方に対するエントロピー正規化ポリシー勾配法の最初の収束結果の開発が可能となる。
論文 参考訳(メタデータ) (2021-10-19T17:21:09Z) - Where is the Grass Greener? Revisiting Generalized Policy Iteration for
Offline Reinforcement Learning [81.15016852963676]
オフラインRL体制における最先端のベースラインを、公正で統一的で高分解能なフレームワークの下で再実装する。
与えられたベースラインが、スペクトルの一方の端で競合する相手よりも優れている場合、他方の端では決してしないことを示す。
論文 参考訳(メタデータ) (2021-07-03T11:00:56Z) - Maximum Entropy Reinforcement Learning with Mixture Policies [54.291331971813364]
MaxEntアルゴリズムを用いて混合エントロピーのトラクタブル近似を構築する。
我々は、それが限界エントロピーの合計と密接に関連していることを示しています。
我々は, 混合ポリシーケースに対するsoft actor-critic (sac) のアルゴリズム的変種を導出し, 一連の連続制御タスクで評価する。
論文 参考訳(メタデータ) (2021-03-18T11:23:39Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。