論文の概要: CGAR: Critic Guided Action Redistribution in Reinforcement Leaning
- arxiv url: http://arxiv.org/abs/2206.11494v1
- Date: Thu, 23 Jun 2022 06:33:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-24 22:54:06.875643
- Title: CGAR: Critic Guided Action Redistribution in Reinforcement Leaning
- Title(参考訳): CGAR: 強化リーンにおける批判的指導的行動再分配
- Authors: Tairan Huang, Xu Li, Hao Li, Mingming Sun, Ping Li
- Abstract要約: 本稿では,CGAR(Critic Guided Action Redistribution)アルゴリズムを導入し,OpenAI MuJoCoタスク上でテストする。
政治以外のアクター評論家アルゴリズムの設定の下では、批評家は少なくとも俳優に匹敵するよりも、予想される割引報酬を得られることを実証する。
- 参考スコア(独自算出の注目度): 27.8704943323583
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training a game-playing reinforcement learning agent requires multiple
interactions with the environment. Ignorant random exploration may cause a
waste of time and resources. It's essential to alleviate such waste. As
discussed in this paper, under the settings of the off-policy actor critic
algorithms, we demonstrate that the critic can bring more expected discounted
rewards than or at least equal to the actor. Thus, the Q value predicted by the
critic is a better signal to redistribute the action originally sampled from
the policy distribution predicted by the actor. This paper introduces the novel
Critic Guided Action Redistribution (CGAR) algorithm and tests it on the OpenAI
MuJoCo tasks. The experimental results demonstrate that our method improves the
sample efficiency and achieves state-of-the-art performance. Our code can be
found at https://github.com/tairanhuang/CGAR.
- Abstract(参考訳): ゲームプレイング強化学習エージェントのトレーニングには,環境との対話が複数必要である。
未知のランダム探索は時間と資源の無駄を引き起こす可能性がある。
そんな無駄を和らげるのが不可欠だ。
本稿では,オフ・ポリティカル・アクタ・リタクタのアルゴリズムの設定において,批評家は俳優よりも,あるいは少なくとも俳優と同等の報酬を期待できることを示す。
したがって、批評家が予測したq値は、アクタが予測したポリシー分布からもともとサンプリングしたアクションを再分配するより良い信号となる。
本稿では,CGAR(Critic Guided Action Redistribution)アルゴリズムを導入し,OpenAI MuJoCoタスク上でテストする。
実験の結果,本手法はサンプル効率が向上し,最新性能が得られた。
私たちのコードはhttps://github.com/tairanhuang/cgarにあります。
関連論文リスト
- Seizing Serendipity: Exploiting the Value of Past Success in Off-Policy Actor-Critic [42.57662196581823]
高品質な$Q$値関数の学習は、多くの現代のオフポリシーディープ強化学習(RL)アルゴリズムの成功に重要な役割を果たしている。
一般的な視点から考えると、RLトレーニングプロセスの後半段階では、$Q$-valueが過小評価されることが多い。
本稿では,Blended Exploitation and Exploration (BEE)演算子を提案する。
論文 参考訳(メタデータ) (2023-06-05T13:38:14Z) - Towards Understanding and Improving GFlowNet Training [71.85707593318297]
本稿では,学習したサンプリング分布と目標報酬分布を比較するための効率的な評価手法を提案する。
本稿では,高解像度のx$,相対的エッジフローポリシーのパラメータ化,新しい軌道バランス目標を提案する。
論文 参考訳(メタデータ) (2023-05-11T22:50:41Z) - Simultaneous Double Q-learning with Conservative Advantage Learning for
Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。
提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T09:17:16Z) - Learning Long-Term Reward Redistribution via Randomized Return
Decomposition [18.47810850195995]
軌跡フィードバックを用いたエピソード強化学習の問題点について考察する。
これは、エージェントが各軌道の終端で1つの報酬信号しか取得できないような、報酬信号の極端な遅延を指す。
本稿では,代償再分配アルゴリズムであるランダムリターン分解(RRD)を提案する。
論文 参考訳(メタデータ) (2021-11-26T13:23:36Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - A Deeper Look at Discounting Mismatch in Actor-Critic Algorithms [81.01917016753644]
本稿では,表現学習の観点からアクタ・クリティカルなアルゴリズムの実装における割引ミスマッチについて検討する。
理論的には、アクター批判アルゴリズムは通常、アクターと批評家の両方に対して割引される。
しかし、専門家は通常、ディスカウントされた批評家を使用しながら、俳優の割引(ガンマt$)を無視する。
論文 参考訳(メタデータ) (2020-10-02T15:51:48Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。