論文の概要: PACER: A Fully Push-forward-based Distributional Reinforcement Learning
Algorithm
- arxiv url: http://arxiv.org/abs/2306.06637v1
- Date: Sun, 11 Jun 2023 09:45:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 17:37:58.856026
- Title: PACER: A Fully Push-forward-based Distributional Reinforcement Learning
Algorithm
- Title(参考訳): PACER: 完全プッシュフォワード型分散強化学習アルゴリズム
- Authors: Wensong Bai, Chao Zhang, Yichao Fu, Lingwei Peng, Hui Qian, Bin Dai
- Abstract要約: 我々は,Push-forward-based Actor-Critic EncourageR (PACER)と呼ばれる,Push-forward-based DistributionReinforcement Learningアルゴリズムを提案する。
PACERは最大効用値ポリシー勾配を確立し、アクターと批評家の両方の構築においてプッシュフォワード演算子を同時に活用する。
各種連続制御ベンチマークの実験的評価は、最先端のアルゴリズムよりもアルゴリズムの方が優れていることを示す。
- 参考スコア(独自算出の注目度): 13.18145235926629
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose the first fully push-forward-based Distributional
Reinforcement Learning algorithm, called Push-forward-based Actor-Critic
EncourageR (PACER). Specifically, PACER establishes a stochastic utility value
policy gradient theorem and simultaneously leverages the push-forward operator
in the construction of both the actor and the critic. Moreover, based on
maximum mean discrepancies (MMD), a novel sample-based encourager is designed
to incentivize exploration. Experimental evaluations on various continuous
control benchmarks demonstrate the superiority of our algorithm over the
state-of-the-art.
- Abstract(参考訳): 本稿では,Push-forward-based Actor-Critic EncourageR (PACER) と呼ばれる,Push-forward-based Distributional Reinforcement Learning アルゴリズムを提案する。
具体的には、PACERは確率的効用値ポリシー勾配定理を確立し、アクターと批評家の両方の構築においてプッシュフォワード演算子を同時に活用する。
さらに, 最大平均誤差 (MMD) に基づいて, 探索のインセンティブを高めるために, 新しいサンプルベース促進剤が設計された。
各種連続制御ベンチマークの実験的評価により,最先端のアルゴリズムが優れていることが示された。
関連論文リスト
- Risk-Sensitive Soft Actor-Critic for Robust Deep Reinforcement Learning
under Distribution Shifts [11.765000124617186]
本研究では、文脈多段階最適化問題における分散シフトに対する深層強化学習アルゴリズムの堅牢性について検討する。
提案アルゴリズムは,リスクニュートラルなソフトアクター・クライブや,頑健な深層強化学習のための2つのベンチマーク手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-15T14:55:38Z) - Distributional Bellman Operators over Mean Embeddings [37.5480897544168]
本研究では,帰還分布の有限次元平均埋め込みを学習し,分布強化学習のための新しい枠組みを提案する。
動的プログラミングと時間差学習のための新しいアルゴリズムをこのフレームワークに基づいて提案する。
論文 参考訳(メタデータ) (2023-12-09T11:36:14Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [67.07008558942792]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Conjugated Discrete Distributions for Distributional Reinforcement
Learning [0.0]
最も成功した方法の1つは、非決定論的プロセスがある場合、最適なポリシーを得られないことを示します。
我々は、分散強化学習が、この状況を完全に改善するのに役立つと論じている。
論文 参考訳(メタデータ) (2021-12-14T14:14:49Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Unsupervised learning of disentangled representations in deep restricted
kernel machines with orthogonality constraints [15.296955630621566]
Constr-DRKMは、非教師なしデータ表現の学習のためのディープカーネル手法である。
本研究では,不整合特徴学習における提案手法の有効性を定量的に評価する。
論文 参考訳(メタデータ) (2020-11-25T11:40:10Z) - Implementation Matters in Deep Policy Gradients: A Case Study on PPO and
TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。
具体的には,「コードレベルの最適化」の結果について検討する。
以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文 参考訳(メタデータ) (2020-05-25T16:24:59Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。