Fugu-MT 論文翻訳(概要): Decoupled Actor-Critic

論文の概要: Decoupled Actor-Critic

arxiv url: http://arxiv.org/abs/2310.19527v1
Date: Mon, 30 Oct 2023 13:28:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-01 20:06:11.330574
Title: Decoupled Actor-Critic
Title（参考訳）: Decoupled Actor-Critic
Authors: Michal Nauman and Marek Cygan
Abstract要約: Decoupled Actor-Critic (DAC)は、勾配のバックプロパゲーションによって2つの異なるアクターを学ぶ。 DACはロコモーションタスクの最先端性能とサンプル効率を達成する。
参考スコア（独自算出の注目度）: 0.9044313965219023
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Actor-Critic methods are in a stalemate of two seemingly irreconcilable problems. Firstly, critic proneness towards overestimation requires sampling temporal-difference targets from a conservative policy optimized using lower-bound Q-values. Secondly, well-known results show that policies that are optimistic in the face of uncertainty yield lower regret levels. To remedy this dichotomy, we propose Decoupled Actor-Critic (DAC). DAC is an off-policy algorithm that learns two distinct actors by gradient backpropagation: a conservative actor used for temporal-difference learning and an optimistic actor used for exploration. We test DAC on DeepMind Control tasks in low and high replay ratio regimes and ablate multiple design choices. Despite minimal computational overhead, DAC achieves state-of-the-art performance and sample efficiency on locomotion tasks.
Abstract（参考訳）: アクタ-クリティックな手法は、一見無矛盾な2つの問題の停滞状態にある。まず、過大評価に対する批判的傾向は、低バウンドq値を用いて最適化された保守的政策から時間差目標をサンプリングする必要がある。第2に、不確実性に直面した楽観的な政策は、後悔のレベルを低くすることを示している。そこで我々は,この二分法を治療するために,DAC(Decoupled Actor-Critic)を提案する。 DACは、時間差学習に使用される保守的なアクターと、探索に使用される楽観的なアクターという、2つの異なるアクターをグラデーションバックプロパゲーションによって学習する。我々は,DeepMind制御タスクにおいて,低リプレイ率と高リプレイ率の条件下でDACを試験し,複数の設計選択を補正する。計算オーバーヘッドは最小限だが、DACは最先端の性能とロコモーションタスクのサンプル効率を達成する。

関連論文リスト

D2C-HRHR: Discrete Actions with Double Distributional Critics for High-Risk-High-Return Tasks [0.3425341633647625]
高リスクハイリターン動作を含むタスクは、しばしばマルチモーダルなアクション分布とリターンを示す。ほとんどの強化学習法は、一元的なガウス主義を前提としており、スカラー評価の批判に頼っている。本稿では,連続的な行動空間を近似したマルチモーダル分布に識別する強化学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-10-20T06:54:53Z)
Planning and Learning in Average Risk-aware MDPs [4.696083734269232]
我々はリスクニュートラルアルゴリズムを拡張し、より一般的なリスク対策のクラスに対応する。 RVIアルゴリズムとQラーニングアルゴリズムの両方が最適性に収束することが証明されている。弊社のアプローチは、エージェントの複雑なリスク認識に微調整されたポリシーの特定を可能にする。
論文参考訳（メタデータ） (2025-03-22T03:18:09Z)
Beyond CVaR: Leveraging Static Spectral Risk Measures for Enhanced Decision-Making in Distributional Reinforcement Learning [4.8342038441006805]
金融、ヘルスケア、ロボティクスといった分野では、最悪のシナリオを管理することが重要です。分散強化学習(DRL)は、リスク感受性を意思決定プロセスに組み込む自然な枠組みを提供する。より広範な静的スペクトルリスク対策(SRM)を最適化する収束保証付きDRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-01-03T20:25:41Z)
Pessimism Meets Risk: Risk-Sensitive Offline Reinforcement Learning [19.292214425524303]
リスクに敏感な強化学習(RL)は,不確実性を管理し,潜在的な有害な結果を最小限に抑えることが不可欠であるシナリオにおいて,意思決定を強化する能力において重要な分野である。本研究は, エントロピーリスク尺度をRL問題に適用することに焦点を当てる。我々は,リスクに敏感な観点からはまだ検討されていない理論的枠組みである線形マルコフ決定プロセス(MDP)の設定を中心としている。
論文参考訳（メタデータ） (2024-07-10T13:09:52Z)
Neural Active Learning Beyond Bandits [69.99592173038903]
ストリームベースとプールベースの両方のアクティブラーニングをニューラルネットワーク近似を用いて検討する。ストリームベースおよびプールベースアクティブラーニングのためのニューラルネットワークを新たに設計したエクスプロイトと探索に基づく2つのアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-04-18T21:52:14Z)
A Reductions Approach to Risk-Sensitive Reinforcement Learning with Optimized Certainty Equivalents [44.09686403685058]
本研究の目的は,累積報酬のリスク尺度を最適化する履歴依存政策を学習することである。楽観主義に基づくメタアルゴリズムと政策勾配に基づくメタアルゴリズムを提案する。我々は,提案アルゴリズムが概念実証MDPで最適な履歴依存ポリシーを学習できることを実証的に示す。
論文参考訳（メタデータ） (2024-03-10T21:45:12Z)
Risk-Sensitive Soft Actor-Critic for Robust Deep Reinforcement Learning under Distribution Shifts [11.765000124617186]
本研究では、文脈多段階最適化問題における分散シフトに対する深層強化学習アルゴリズムの堅牢性について検討する。提案アルゴリズムは,リスクニュートラルなソフトアクター・クライブや,頑健な深層強化学習のための2つのベンチマーク手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-02-15T14:55:38Z)
Risk-sensitive Markov Decision Process and Learning under General Utility Functions [3.6260136172126667]
強化学習(Reinforcement Learning, RL)は、様々な応用分野や理論的研究において大きな注目を集めている。累積報酬の空間上でのエプシロン被覆を用いた修正値アルゴリズムを提案する。シミュレータが存在しない場合,提案アルゴリズムは高信頼度探索法を用いて設計され,ほぼ最適ポリシーを同定する。
論文参考訳（メタデータ） (2023-11-22T18:50:06Z)
Provably Efficient Iterated CVaR Reinforcement Learning with Function Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文参考訳（メタデータ） (2023-07-06T08:14:54Z)
Multivariate Systemic Risk Measures and Computation by Deep Learning Algorithms [63.03966552670014]
本稿では,主観的最適度と関連するリスク割り当ての公平性に着目し,重要な理論的側面について論じる。私たちが提供しているアルゴリズムは、予備項の学習、二重表現の最適化、およびそれに対応する公正なリスク割り当てを可能にします。
論文参考訳（メタデータ） (2023-02-02T22:16:49Z)
Conditionally Elicitable Dynamic Risk Measures for Deep Reinforcement Learning [0.0]
我々は,ディープニューラルネットワークを用いた動的スペクトルリスク尺度のクラスを推定する効率的な手法を開発した。また,リスクに敏感なアクター・クリティック・アルゴリズムも開発しており,追加のネスト・トランジションを必要としない。
論文参考訳（メタデータ） (2022-06-29T14:11:15Z)
Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文参考訳（メタデータ） (2021-05-17T20:16:46Z)
Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-28T05:02:26Z)
Bounded Risk-Sensitive Markov Games: Forward Policy Design and Inverse Reward Learning with Iterative Reasoning and Cumulative Prospect Theory [33.57592649823294]
本稿では,リスクに敏感なマルコフゲーム(BRSMG)とその逆報酬学習問題について検討する。我々は,BRSMGにおいて,人間は知能を制限し,リスクに敏感なユーティリティを最大化することを示した。その結果, エージェントの行動は, リスク・リバース特性とリスク・サーキング特性の両方を示すことがわかった。
論文参考訳（メタデータ） (2020-09-03T07:32:32Z)
Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文参考訳（メタデータ） (2020-02-10T04:23:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。