論文の概要: CASA-B: A Unified Framework of Model-Free Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2105.03923v1
- Date: Sun, 9 May 2021 12:45:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 15:18:42.912908
- Title: CASA-B: A Unified Framework of Model-Free Reinforcement Learning
- Title(参考訳): CASA-B: モデルレス強化学習の統一フレームワーク
- Authors: Changnan Xiao, Haosen Shi, Jiajun Fan, Shihong Deng
- Abstract要約: CASA-Bは、状態値、状態アクション値、ポリシーを見積もるアクター批判的なフレームワークです。
我々は,CASA-Bが政策評価と政策改善のための一貫した経路を統合することを証明した。
行動方針の任意の範囲へのエントロピーを明示的に制御するプログレッシブクローズドフォームエントロピー制御機構を提案する。
- 参考スコア(独自算出の注目度): 1.4566990078034239
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building on the breakthrough of reinforcement learning, this paper introduces
a unified framework of model-free reinforcement learning, CASA-B, Critic AS an
Actor with Bandits Vote Algorithm. CASA-B is an actor-critic framework that
estimates state-value, state-action-value and policy. An expectation-correct
Doubly Robust Trace is introduced to learn state-value and state-action-value,
whose convergence properties are guaranteed. We prove that CASA-B integrates a
consistent path for the policy evaluation and the policy improvement. The
policy evaluation is equivalent to a compensational policy improvement, which
alleviates the function approximation error, and is also equivalent to an
entropy-regularized policy improvement, which prevents the policy from
collapsing to a suboptimal solution. Building on this design, we find the
entropy of the behavior policies' and the target policy's are disentangled.
Based on this observation, we propose a progressive closed-form entropy control
mechanism, which explicitly controls the behavior policies' entropy to
arbitrary range. Our experiments show that CASAB is super sample efficient and
achieves State-Of-The-Art on Arcade Learning Environment. Our mean Human
Normalized Score is 6456.63% and our median Human Normalized Score is 477.17%,
under 200M training scale.
- Abstract(参考訳): 本稿では、強化学習のブレークスルーに基づいて、モデルフリー強化学習の統一フレームワークであるCASA-B, Critic AS an Actor with Bandits Vote Algorithmを紹介する。
CASA-Bはアクタークリティカルなフレームワークで、状態-値、状態-アクション-値、ポリシーを推定する。
コンバージェンス特性が保証される状態-値と状態-アクション-値を学ぶために、期待正しいDouubly Robust Traceが導入された。
我々は,CASA-Bが政策評価と政策改善のための一貫した経路を統合することを証明した。
政策評価は、関数近似誤差を軽減する補償政策改善と等価であり、また、エントロピー規則化された政策改善と等価であり、政策が最適以下の解に崩壊することを防ぐ。
この設計に基づいて、「行動方針のエントロピー」と目標方針のアントロピーが歪められているのが分かる。
この観察に基づいて,行動ポリシーの任意の範囲へのエントロピーを明示的に制御するプログレッシブクローズドフォームエントロピー制御機構を提案する。
実験の結果, CASAB は高効率であり, アーケード学習環境における State-Of-The-Art を実現することがわかった。
我々の平均的人間正規化スコアは6456.63%であり、中央値の人間正規化スコアは477.17%である。
関連論文リスト
- Actor-Critic Reinforcement Learning with Phased Actor [10.577516871906816]
本稿では,政策勾配推定を改善するために,PAAC法における新しい段階的アクターを提案する。
PAACはアクターアップデートで$Q$とTDエラーの両方を処理している。
その結果,PAACは総コスト,学習ばらつき,堅牢性,学習速度,成功率などによって,大幅な性能向上をもたらすことがわかった。
論文 参考訳(メタデータ) (2024-04-18T01:27:31Z) - Matrix Estimation for Offline Reinforcement Learning with Low-Rank
Structure [10.968373699696455]
エージェントが環境と相互作用せず、行動ポリシーを用いて収集されたオフラインデータに頼らなければならないオフライン強化学習(RL)について考察する。
事前の作業は、評価対象方針が行動方針によってカバーされている場合に、政策評価を保証する。
そこで本稿では,低ランク構造を利用したオフラインポリシ評価アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-24T23:49:06Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - Conservative State Value Estimation for Offline Reinforcement Learning [36.416504941791224]
保守的状態価値推定(CSVE)は、OOD状態に直接ペナルティを与えることによって、保守的なV関数を学ぶ。
我々は,データセットの周辺状態をサンプリングし,ペナルティ化することにより,批判者が保守的価値推定を行う実用的なアクタ批判アルゴリズムを開発した。
我々はD4RLの古典的連続制御タスクにおいて,本手法が保守的なQ関数学習法よりも優れており,最近のSOTA法と強く競合していることを示す。
論文 参考訳(メタデータ) (2023-02-14T08:13:55Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Ensuring Monotonic Policy Improvement in Entropy-regularized Value-based
Reinforcement Learning [14.325835899564664]
Entropy-regularized value-based reinforcement learning methodは、ポリシー更新毎にポリシーの単調な改善を保証する。
本稿では,政策変動緩和のためのポリシー更新の度合いを調整するための基準として,この下界を利用した新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-25T04:09:18Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Efficient Evaluation of Natural Stochastic Policies in Offline
Reinforcement Learning [80.42316902296832]
行動政策から逸脱した観点から定義される自然政策の効果的な非政治的評価について検討する。
これは、ほとんどの著作が明示された政策の評価を考慮に入れている、政治外の評価に関する文献から逸脱している。
論文 参考訳(メタデータ) (2020-06-06T15:08:24Z) - Policy Entropy for Out-of-Distribution Classification [8.747840760772268]
我々は,新しいポリシエントロピーに基づくアウト・オブ・ディストリビューション分類器PEOCを提案する。
深層強化学習における未確認状態を確実に検出する。
最先端の1クラス分類アルゴリズムに対して非常に競争力がある。
論文 参考訳(メタデータ) (2020-05-25T12:18:20Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。