論文の概要: Internally Rewarded Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2302.00270v1
- Date: Wed, 1 Feb 2023 06:25:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-02 13:26:10.189444
- Title: Internally Rewarded Reinforcement Learning
- Title(参考訳): 内部リワード強化学習
- Authors: Mengdi Li, Xufeng Zhao, Jae Hee Lee, Cornelius Weber, Stefan Wermter
- Abstract要約: 本研究では,政策学習の報奨信号が,政策に依存して最適化された差別者によって生成される強化学習のクラスについて検討する。
この相互依存は、未熟な差別者からの報酬信号が騒々しく、政策学習を阻害し、逆に、未学習の政策が差別者学習を妨げるため、不安定な学習プロセスにつながる。
- 参考スコア(独自算出の注目度): 16.538887534958555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a class of reinforcement learning problems where the reward signals
for policy learning are generated by a discriminator that is dependent on and
jointly optimized with the policy. This interdependence between the policy and
the discriminator leads to an unstable learning process because reward signals
from an immature discriminator are noisy and impede policy learning, and
conversely, an untrained policy impedes discriminator learning. We call this
learning setting $\textit{Internally Rewarded Reinforcement Learning}$ (IRRL)
as the reward is not provided directly by the environment but
$\textit{internally}$ by the discriminator. In this paper, we formally
formulate IRRL and present a class of problems that belong to IRRL. We
theoretically derive and empirically analyze the effect of the reward function
in IRRL and based on these analyses propose the clipped linear reward function.
Experimental results show that the proposed reward function can consistently
stabilize the training process by reducing the impact of reward noise, which
leads to faster convergence and higher performance compared with baselines in
diverse tasks.
- Abstract(参考訳): 本研究では,政策に依存し,協調的に最適化された判別器によって,政策学習の報奨信号を生成する強化学習問題のクラスについて検討する。
この方針と差別者間の相互依存は、未熟な差別者からの報酬信号が騒々しく、政策学習を妨げ、逆に、未学習の政策が差別者学習を妨げるため、不安定な学習プロセスにつながる。
私たちはこの学習設定を$\textit{Internally Rewarded Reinforcement Learning}$ (IRRL)と呼びます。
本稿では、IRRLを公式に定式化し、IRRLに属する問題のクラスを示す。
本稿では,irrlにおける報酬関数の効果を理論的に導出し,経験的に解析し,これらの解析からクリップ型報酬関数を提案する。
実験結果から,提案する報酬関数は,報奨ノイズの影響を低減し,様々なタスクのベースラインと比較して,より高速に収束し,高いパフォーマンスが得られることを示した。
関連論文リスト
- Reinforcement Learning from Bagged Reward: A Transformer-based Approach
for Instance-Level Reward Redistribution [48.92144929307152]
強化学習(RL)では、エージェントの動作毎に即時報奨信号を生成する。
多くの実世界のアプリケーションでは、即時報酬信号はエージェントによって取得できない。
本稿では,各バッグ内の文脈ニュアンスと時間的依存関係を自己認識機構を用いて解釈するトランスフォーマーベースの報酬モデルReward Bag Transformer (RBT)を提案する。
論文 参考訳(メタデータ) (2024-02-06T07:26:44Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in
Reinforcement Learning from Human Feedback [61.54791065013767]
人間のフィードバック(RRLHF)からのロボット強化学習による報酬正規化のためのサンプル効率向上アルゴリズムREBELを提案する。
PEBBLEやPEBBLE+SURFのような最先端の手法と比較して,REBELは試料効率を最大70%向上し,十分な報酬率が得られることを示した。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - CLARE: Conservative Model-Based Reward Learning for Offline Inverse
Reinforcement Learning [26.05184273238923]
この研究は、オフライン逆強化学習(IRL)における大きな課題に取り組むことを目的としている。
我々は「保守主義」を学習報酬関数に統合することでオフラインIRLを効率的に解くアルゴリズム(CLARE)を考案した。
我々の理論的分析は、学習した方針と専門家の政策の間のリターンギャップに上限を与える。
論文 参考訳(メタデータ) (2023-02-09T17:16:29Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Hindsight Reward Tweaking via Conditional Deep Reinforcement Learning [37.61951923445689]
本稿では,最近空間における報酬関数の影響をモデル化するための,深層強化学習のための新しいパラダイムを提案する。
このアプローチの実現可能性を示し、複数の MuJoCo タスクによる政策パフォーマンス向上における潜在的応用の1つについて検討する。
論文 参考訳(メタデータ) (2021-09-06T10:06:48Z) - Simplifying Deep Reinforcement Learning via Self-Supervision [51.2400839966489]
自己改善強化学習(Self-Supervised Reinforcement Learning, SSRL)は、純粋に監督された損失を伴うポリシーを最適化する単純なアルゴリズムである。
SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合することを示す。
論文 参考訳(メタデータ) (2021-06-10T06:29:59Z) - Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。
敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:53:48Z) - Off-Policy Adversarial Inverse Reinforcement Learning [0.0]
Adversarial Imitation Learning (AIL)は、強化学習(RL)におけるアルゴリズムのクラスである。
本稿では, サンプル効率が良く, 模倣性能も良好であるOff-policy-AIRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-03T16:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。