論文の概要: Reward-Punishment Reinforcement Learning with Maximum Entropy
- arxiv url: http://arxiv.org/abs/2405.11784v1
- Date: Mon, 20 May 2024 05:05:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 14:13:43.635004
- Title: Reward-Punishment Reinforcement Learning with Maximum Entropy
- Title(参考訳): 最大エントロピーを用いた逆処理強化学習
- Authors: Jiexin Wang, Eiji Uchibe,
- Abstract要約: 本稿では,長期政策エントロピーの最適化と報奨助成強化学習の目的を統合するソフトなDeep MaxPain'(SoftDMP)アルゴリズムを提案する。
我々のモチベーションは、従来の max' および min' 演算子を超えたアクション値の更新に使用される演算子のよりスムーズなバリエーションを促進することである。
- 参考スコア(独自算出の注目度): 3.123049150077741
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce the ``soft Deep MaxPain'' (softDMP) algorithm, which integrates the optimization of long-term policy entropy into reward-punishment reinforcement learning objectives. Our motivation is to facilitate a smoother variation of operators utilized in the updating of action values beyond traditional ``max'' and ``min'' operators, where the goal is enhancing sample efficiency and robustness. We also address two unresolved issues from the previous Deep MaxPain method. Firstly, we investigate how the negated (``flipped'') pain-seeking sub-policy, derived from the punishment action value, collaborates with the ``min'' operator to effectively learn the punishment module and how softDMP's smooth learning operator provides insights into the ``flipping'' trick. Secondly, we tackle the challenge of data collection for learning the punishment module to mitigate inconsistencies arising from the involvement of the ``flipped'' sub-policy (pain-avoidance sub-policy) in the unified behavior policy. We empirically explore the first issue in two discrete Markov Decision Process (MDP) environments, elucidating the crucial advancements of the DMP approach and the necessity for soft treatments on the hard operators. For the second issue, we propose a probabilistic classifier based on the ratio of the pain-seeking sub-policy to the sum of the pain-seeking and goal-reaching sub-policies. This classifier assigns roll-outs to separate replay buffers for updating reward and punishment action-value functions, respectively. Our framework demonstrates superior performance in Turtlebot 3's maze navigation tasks under the ROS Gazebo simulation.
- Abstract(参考訳): 我々は,長期的政策エントロピーの最適化を報奨助成強化学習目標に統合した ‘soft Deep MaxPain' (softDMP) アルゴリズムを導入する。
私たちのモチベーションは、従来の `max'' や `min'' の演算子以外の動作値の更新に使用される演算子のスムーズな変動を促進することにあります。
また、以前のDeep MaxPain法から未解決の2つの問題にも対処する。
まず,罰行動値から得られる負の(「フリップ」)鎮痛サブ政治が,「ミン」オペレータと協調して罰モジュールを効果的に学習し,ソフトDMPのスムーズな学習オペレータが「フリップ」のトリックについてどのように洞察するかを検討する。
第2に,統一行動政策における<flipped'サブ政治(Pain-avoidanceサブ政治)の関与による不整合を軽減するために,罰則を学習するデータ収集の課題に取り組む。
2つの離散マルコフ決定過程(MDP)環境での最初の課題を実証的に探求し、DMPアプローチの重要な進歩とハード演算子に対するソフト処理の必要性を解明する。
第2号では、痛覚サブ政治と痛覚サブ政治と目標達成サブ政治の合計との比率に基づく確率的分類器を提案する。
この分類器は、それぞれ報酬と罰則値関数を更新するリプレイバッファにロールアウトを割り当てる。
本稿では,ROS Gazebo シミュレーションにより,Turtlebot 3 の迷路ナビゲーションタスクにおいて優れた性能を示す。
関連論文リスト
- A Robust Mixed-Effects Bandit Algorithm for Assessing Mobile Health Interventions [39.8207428422509]
DML-TS-NNR(DML-TS-NNR)は、モバイルヘルス介入のためのコンテキスト的帯域幅アルゴリズムである。
参加者の不均一性、非定常性、報酬の非線形性といった問題に対処する。
そこで本研究では,DML-TS-NNRアルゴリズムのシミュレーションおよび2つのオフ政治評価研究において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-11T14:24:24Z) - Adversarial Batch Inverse Reinforcement Learning: Learn to Reward from
Imperfect Demonstration for Interactive Recommendation [23.048841953423846]
我々は、強化学習の基礎となる報奨学習の問題に焦点をあてる。
従来のアプローチでは、報酬を得るための追加の手順を導入するか、最適化の複雑さを増大させる。
所望の特性を実現するために, バッチ逆強化学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-30T13:43:20Z) - Interpreting Primal-Dual Algorithms for Constrained Multiagent
Reinforcement Learning [4.67306371596399]
ほとんどのC-MARLアルゴリズムは、報酬に付加されるペナルティ関数を通じて制約を強制するために、プリマル・デュアルアプローチを使用する。
制約関数をペナルティとして使用する標準的な慣行が安全性の弱い概念に繋がることを示す。
本稿では,制約付きマルチエージェント・アドバンスト・アクター・アトラクション (C-MAA2C) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-29T10:23:26Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Deterministic and Discriminative Imitation (D2-Imitation): Revisiting
Adversarial Imitation for Sample Efficiency [61.03922379081648]
本稿では,敵対的トレーニングやmin-max最適化を必要としない非政治的サンプル効率の手法を提案する。
実験の結果, D2-Imitation はサンプル効率の向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T19:36:19Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - SoftDICE for Imitation Learning: Rethinking Off-policy Distribution
Matching [61.20581291619333]
SoftDICEは、模倣学習のための最先端のパフォーマンスを達成する。
我々は、模倣学習のための最先端のパフォーマンスを実現するSoftDICEを提案する。
論文 参考訳(メタデータ) (2021-06-06T15:37:11Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z) - Exploration-Exploitation in Constrained MDPs [79.23623305214275]
拘束マルコフ決定過程(CMDP)における探索・探索ジレンマについて検討する。
未知のCMDPで学習している間、エージェントは、MDPに関する新しい情報を見つけるために、トレードオフ探索を行う必要がある。
エージェントは最終的に良い方針や最適な方針を学習するが、学習プロセス中にエージェントが制約に過度に違反することを望まない。
論文 参考訳(メタデータ) (2020-03-04T17:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。