論文の概要: Actor-critic is implicitly biased towards high entropy optimal policies
- arxiv url: http://arxiv.org/abs/2110.11280v1
- Date: Thu, 21 Oct 2021 17:06:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 17:33:39.116526
- Title: Actor-critic is implicitly biased towards high entropy optimal policies
- Title(参考訳): アクター批判は暗黙的に高エントロピー最適ポリシーに偏っている
- Authors: Yuzheng Hu, Ziwei Ji, Matus Telgarsky
- Abstract要約: 線形MDPとの相互作用によってTDに更新された線形ソフトマックスポリシーである、最も単純なアクター批判法は、高いエントロピー最適ポリシーを好むことを示す。
このアルゴリズムは正規化もプロジェクションも無く、$epsilon$-greedyのような探索もないだけでなく、リセットのない単一軌道で訓練されている。
- 参考スコア(独自算出の注目度): 32.697634000764786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We show that the simplest actor-critic method -- a linear softmax policy
updated with TD through interaction with a linear MDP, but featuring no
explicit regularization or exploration -- does not merely find an optimal
policy, but moreover prefers high entropy optimal policies. To demonstrate the
strength of this bias, the algorithm not only has no regularization, no
projections, and no exploration like $\epsilon$-greedy, but is moreover trained
on a single trajectory with no resets. The key consequence of the high entropy
bias is that uniform mixing assumptions on the MDP, which exist in some form in
all prior work, can be dropped: the implicit regularization of the high entropy
bias is enough to ensure that all chains mix and an optimal policy is reached
with high probability. As auxiliary contributions, this work decouples concerns
between the actor and critic by writing the actor update as an explicit mirror
descent, provides tools to uniformly bound mixing times within KL balls of
policy space, and provides a projection-free TD analysis with its own implicit
bias which can be run from an unmixed starting distribution.
- Abstract(参考訳): 我々は,最も単純なアクタ・クリティックな手法である線形mdpとの相互作用によりtdで更新されるリニア・ソフトマックス・ポリシーは,単に最適なポリシーを見つけるだけでなく,高いエントロピーの最適ポリシーを好むことを示した。
このバイアスの強さを示すために、アルゴリズムは正規化もプロジェクションも行わず、$\epsilon$-greedyのような探索も行わない。
高いエントロピーバイアスの鍵となる結果は、全ての先行研究において何らかの形で存在するMDP上の均一な混合仮定を下げることである: 高いエントロピーバイアスの暗黙の正規化は、すべての連鎖と最適なポリシーが高い確率で混合されることを保証するのに十分である。
補助的な貢献として、アクター更新を明示的なミラー降下として記述することでアクターと批評家の懸念を分離し、ポリシー空間のKL球内での混合時間を均一に拘束するツールを提供し、未混合開始分布から実行できる独自の暗黙のバイアスを持つプロジェクションフリーなTD分析を提供する。
関連論文リスト
- Near-Optimal Dynamic Regret for Adversarial Linear Mixture MDPs [63.47351876442425]
本研究は,完全情報フィードバックの下で,相変わらずの相変わらずの線形混合MDPについて検討した。
本稿では,占領率に基づく手法と政策に基づく手法の利点を組み合わせた新しいアルゴリズムを提案する。
我々のアルゴリズムは$widetildemathcalO(d sqrtH3 K + sqrtHK(H + barP_K$)$ dynamic regret, ここで$d$は特徴次元である。
論文 参考訳(メタデータ) (2024-11-05T13:55:52Z) - Zeroth-Order Policy Gradient for Reinforcement Learning from Human
Feedback without Reward Inference [17.76565371753346]
本稿では,報酬推論を伴わない2つのRLHFアルゴリズムを提案する。
鍵となる考え方は、人間の嗜好と異なる局所値関数を推定し、ゼロ階勾配近似器でポリシー勾配を近似することである。
以上の結果から,報酬推論なしで一般RLHF問題の解法が確立できることが示唆された。
論文 参考訳(メタデータ) (2024-09-25T22:20:11Z) - Contrastive Policy Gradient: Aligning LLMs on sequence-level scores in a supervised-friendly fashion [44.95386817008473]
コントラストポリシーグラディエント(Contrastive Policy Gradient, COPG)は、単純かつ数学的に原理化された新しいRLアルゴリズムである。
本稿では,直接アライメント手法のIPO(アイデンティティ優先最適化)と古典的政策勾配を一般化する手法を提案する。
提案したCOPGをおもちゃのバンディット問題で実験し,その特性を説明するとともに,要約タスクでLLMを微調整する。
論文 参考訳(メタデータ) (2024-06-27T14:03:49Z) - Offline Imitation Learning with Suboptimal Demonstrations via Relaxed
Distribution Matching [109.5084863685397]
オフライン模倣学習(IL)は、環境と相互作用することなく、事前にコンパイルされたデモからパフォーマンスポリシーを学習する機能を提供する。
非対称な f-分割を明示的なサポート正規化に用いたRelaxDICEを提案する。
提案手法は,6つの標準連続制御環境において,最上位のオフライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-03-05T03:35:11Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - Global Optimality and Finite Sample Analysis of Softmax Off-Policy Actor
Critic under State Distribution Mismatch [29.02336004872336]
我々は、非政治アクター批評家アルゴリズムのグローバル最適性と収束率を確立する。
私たちの研究は、政策勾配法の最適性に関する既存の研究を超えています。
論文 参考訳(メタデータ) (2021-11-04T16:48:45Z) - Beyond Exact Gradients: Convergence of Stochastic Soft-Max Policy Gradient Methods with Entropy Regularization [20.651913793555163]
古典的エントロピー正規化政策勾配法をソフトマックス政策パラメトリゼーションで再検討する。
提案したアルゴリズムに対して,大域的最適収束結果と$widetildemathcalO(frac1epsilon2)$のサンプル複雑性を確立する。
論文 参考訳(メタデータ) (2021-10-19T17:21:09Z) - Where is the Grass Greener? Revisiting Generalized Policy Iteration for
Offline Reinforcement Learning [81.15016852963676]
オフラインRL体制における最先端のベースラインを、公正で統一的で高分解能なフレームワークの下で再実装する。
与えられたベースラインが、スペクトルの一方の端で競合する相手よりも優れている場合、他方の端では決してしないことを示す。
論文 参考訳(メタデータ) (2021-07-03T11:00:56Z) - Maximum Entropy Reinforcement Learning with Mixture Policies [54.291331971813364]
MaxEntアルゴリズムを用いて混合エントロピーのトラクタブル近似を構築する。
我々は、それが限界エントロピーの合計と密接に関連していることを示しています。
我々は, 混合ポリシーケースに対するsoft actor-critic (sac) のアルゴリズム的変種を導出し, 一連の連続制御タスクで評価する。
論文 参考訳(メタデータ) (2021-03-18T11:23:39Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。