論文の概要: Decoupled Actor-Critic
- arxiv url: http://arxiv.org/abs/2310.19527v1
- Date: Mon, 30 Oct 2023 13:28:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 20:06:11.330574
- Title: Decoupled Actor-Critic
- Title(参考訳): Decoupled Actor-Critic
- Authors: Michal Nauman and Marek Cygan
- Abstract要約: Decoupled Actor-Critic (DAC)は、勾配のバックプロパゲーションによって2つの異なるアクターを学ぶ。
DACはロコモーションタスクの最先端性能とサンプル効率を達成する。
- 参考スコア(独自算出の注目度): 0.9044313965219023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Actor-Critic methods are in a stalemate of two seemingly irreconcilable
problems. Firstly, critic proneness towards overestimation requires sampling
temporal-difference targets from a conservative policy optimized using
lower-bound Q-values. Secondly, well-known results show that policies that are
optimistic in the face of uncertainty yield lower regret levels. To remedy this
dichotomy, we propose Decoupled Actor-Critic (DAC). DAC is an off-policy
algorithm that learns two distinct actors by gradient backpropagation: a
conservative actor used for temporal-difference learning and an optimistic
actor used for exploration. We test DAC on DeepMind Control tasks in low and
high replay ratio regimes and ablate multiple design choices. Despite minimal
computational overhead, DAC achieves state-of-the-art performance and sample
efficiency on locomotion tasks.
- Abstract(参考訳): アクタ-クリティックな手法は、一見無矛盾な2つの問題の停滞状態にある。
まず、過大評価に対する批判的傾向は、低バウンドq値を用いて最適化された保守的政策から時間差目標をサンプリングする必要がある。
第2に、不確実性に直面した楽観的な政策は、後悔のレベルを低くすることを示している。
そこで我々は,この二分法を治療するために,DAC(Decoupled Actor-Critic)を提案する。
DACは、時間差学習に使用される保守的なアクターと、探索に使用される楽観的なアクターという、2つの異なるアクターをグラデーションバックプロパゲーションによって学習する。
我々は,DeepMind制御タスクにおいて,低リプレイ率と高リプレイ率の条件下でDACを試験し,複数の設計選択を補正する。
計算オーバーヘッドは最小限だが、DACは最先端の性能とロコモーションタスクのサンプル効率を達成する。
関連論文リスト
- Pessimism Meets Risk: Risk-Sensitive Offline Reinforcement Learning [19.292214425524303]
リスクに敏感な強化学習(RL)は,不確実性を管理し,潜在的な有害な結果を最小限に抑えることが不可欠であるシナリオにおいて,意思決定を強化する能力において重要な分野である。
本研究は, エントロピーリスク尺度をRL問題に適用することに焦点を当てる。
我々は,リスクに敏感な観点からはまだ検討されていない理論的枠組みである線形マルコフ決定プロセス(MDP)の設定を中心としている。
論文 参考訳(メタデータ) (2024-07-10T13:09:52Z) - Neural Active Learning Beyond Bandits [69.99592173038903]
ストリームベースとプールベースの両方のアクティブラーニングをニューラルネットワーク近似を用いて検討する。
ストリームベースおよびプールベースアクティブラーニングのためのニューラルネットワークを新たに設計したエクスプロイトと探索に基づく2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-18T21:52:14Z) - Risk-Sensitive Soft Actor-Critic for Robust Deep Reinforcement Learning
under Distribution Shifts [11.765000124617186]
本研究では、文脈多段階最適化問題における分散シフトに対する深層強化学習アルゴリズムの堅牢性について検討する。
提案アルゴリズムは,リスクニュートラルなソフトアクター・クライブや,頑健な深層強化学習のための2つのベンチマーク手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-15T14:55:38Z) - Risk-sensitive Markov Decision Process and Learning under General
Utility Functions [3.6260136172126667]
強化学習(Reinforcement Learning, RL)は、様々な応用分野や理論的研究において大きな注目を集めている。
累積報酬の空間上でのエプシロン被覆を用いた修正値アルゴリズムを提案する。
シミュレータが存在しない場合,提案アルゴリズムは高信頼度探索法を用いて設計され,ほぼ最適ポリシーを同定する。
論文 参考訳(メタデータ) (2023-11-22T18:50:06Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - Multivariate Systemic Risk Measures and Computation by Deep Learning
Algorithms [63.03966552670014]
本稿では,主観的最適度と関連するリスク割り当ての公平性に着目し,重要な理論的側面について論じる。
私たちが提供しているアルゴリズムは、予備項の学習、二重表現の最適化、およびそれに対応する公正なリスク割り当てを可能にします。
論文 参考訳(メタデータ) (2023-02-02T22:16:49Z) - Conditionally Elicitable Dynamic Risk Measures for Deep Reinforcement
Learning [0.0]
我々は,ディープニューラルネットワークを用いた動的スペクトルリスク尺度のクラスを推定する効率的な手法を開発した。
また,リスクに敏感なアクター・クリティック・アルゴリズムも開発しており,追加のネスト・トランジションを必要としない。
論文 参考訳(メタデータ) (2022-06-29T14:11:15Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Bounded Risk-Sensitive Markov Games: Forward Policy Design and Inverse
Reward Learning with Iterative Reasoning and Cumulative Prospect Theory [33.57592649823294]
本稿では,リスクに敏感なマルコフゲーム(BRSMG)とその逆報酬学習問題について検討する。
我々は,BRSMGにおいて,人間は知能を制限し,リスクに敏感なユーティリティを最大化することを示した。
その結果, エージェントの行動は, リスク・リバース特性とリスク・サーキング特性の両方を示すことがわかった。
論文 参考訳(メタデータ) (2020-09-03T07:32:32Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。