論文の概要: Self Punishment and Reward Backfill for Deep Q-Learning
- arxiv url: http://arxiv.org/abs/2004.05002v2
- Date: Sat, 1 Jan 2022 19:47:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 20:19:04.585334
- Title: Self Punishment and Reward Backfill for Deep Q-Learning
- Title(参考訳): 深層q学習における自己罰と報酬バックフィル
- Authors: Mohammad Reza Bonyadi, Rui Wang, Maryam Ziaei
- Abstract要約: 強化学習エージェントは、通常環境によって提供される全報酬を最大化する行動を促すことで学習する。
多くの環境では、報酬は個々のアクションではなく一連のアクションの後に提供され、エージェントはそれらのアクションが有効かどうかという点であいまいさを経験する。
本研究では,行動心理学にインスパイアされた2つの戦略を提案する。
- 参考スコア(独自算出の注目度): 6.572828651397661
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning agents learn by encouraging behaviours which maximize
their total reward, usually provided by the environment. In many environments,
however, the reward is provided after a series of actions rather than each
single action, leading the agent to experience ambiguity in terms of whether
those actions are effective, an issue known as the credit assignment problem.
In this paper, we propose two strategies inspired by behavioural psychology to
enable the agent to intrinsically estimate more informative reward values for
actions with no reward. The first strategy, called self-punishment (SP),
discourages the agent from making mistakes that lead to undesirable terminal
states. The second strategy, called the rewards backfill (RB), backpropagates
the rewards between two rewarded actions. We prove that, under certain
assumptions and regardless of the reinforcement learning algorithm used, these
two strategies maintain the order of policies in the space of all possible
policies in terms of their total reward, and, by extension, maintain the
optimal policy. Hence, our proposed strategies integrate with any reinforcement
learning algorithm that learns a value or action-value function through
experience. We incorporated these two strategies into three popular deep
reinforcement learning approaches and evaluated the results on thirty Atari
games. After parameter tuning, our results indicate that the proposed
strategies improve the tested methods in over 65 percent of tested games by up
to over 25 times performance improvement.
- Abstract(参考訳): 強化学習エージェントは、通常環境によって提供される全報酬を最大化する行動を促すことで学習する。
しかし、多くの環境において、報酬は個々のアクションではなく一連のアクションの後に提供され、エージェントはこれらのアクションが効果的かどうかという観点で曖昧さを経験することになる。
本稿では,行動心理学にインスパイアされた2つの戦略を提案する。
最初の戦略はSP(Self-punishment)と呼ばれ、エージェントが望ましくない端末状態につながるミスを犯すことを妨げる。
2つ目の戦略はrb(rewards backfill)と呼ばれ、2つのrewards backfillの間のrewardsをバックプロパゲーションする。
我々は,特定の仮定と強化学習アルゴリズムによらず,これら2つの戦略が,すべての可能な政策の空間における方針の順序を維持し,その報酬の合計と拡張によって,最適な政策を維持することを証明した。
したがって,提案手法は,経験を通じて価値や行動-価値関数を学習する強化学習アルゴリズムと統合する。
この2つの戦略を3つの一般的な深層強化学習アプローチに取り入れ,30種類のatariゲームでの結果を評価した。
パラメータチューニングを行った結果,提案手法は,テスト対象ゲームの65%以上において,最大25倍以上のパフォーマンス向上を実現していることが示唆された。
関連論文リスト
- Fast Peer Adaptation with Context-aware Exploration [63.08444527039578]
マルチエージェントゲームにおける学習エージェントに対するピア識別報酬を提案する。
この報酬は、効果的な探索と迅速な適応のための文脈認識ポリシーを学ぶためのエージェントのモチベーションとなる。
我々は,競争力のある(クーンポーカー),協力的(PO-Overcooked),あるいは混合的(Predator-Prey-W)な(Pedator-Prey-W)ゲームを含む多種多様なテストベッドについて評価を行った。
論文 参考訳(メタデータ) (2024-02-04T13:02:27Z) - A State Augmentation based approach to Reinforcement Learning from Human
Preferences [20.13307800821161]
優先に基づく強化学習は、クエリされたトラジェクトリペアのバイナリフィードバックを利用することで、この問題を解決しようとする。
本稿では,エージェントの報酬モデルが堅牢である状態拡張手法を提案する。
論文 参考訳(メタデータ) (2023-02-17T07:10:50Z) - Credit-cognisant reinforcement learning for multi-agent cooperation [0.0]
エージェントは,その行動が環境および共同エージェントに与える影響を知覚することができる。
これらの経験を操り、それらに含まれる報酬を構成することで、すべてのエージェントが受け取る報酬を同一のアクションシーケンスに含めることで、独立した深層Q-ラーニングの性能を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2022-11-18T09:00:25Z) - Imitating Past Successes can be Very Suboptimal [145.70788608016755]
既存の結果条件付き模倣学習手法が必ずしもポリシーを改善できないことを示す。
簡単な修正が、政策改善を保証する方法をもたらすことを示す。
我々の目的は、全く新しい方法を開発するのではなく、成果条件付き模倣学習の変種が報酬を最大化するためにどのように使用できるかを説明することである。
論文 参考訳(メタデータ) (2022-06-07T15:13:43Z) - Execute Order 66: Targeted Data Poisoning for Reinforcement Learning [52.593097204559314]
本研究は, 特定の目標状態にのみ, エージェントの誤動作を引き起こす, 強化学習のための無害な毒殺攻撃を導入する。
我々は、近年の手法である勾配アライメントを強化学習に適用することで、これを実現する。
本手法を検証し,異なる難易度を持つ2つのアタリゲームで成功例を示す。
論文 参考訳(メタデータ) (2022-01-03T17:09:32Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。
敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:53:48Z) - Difference Rewards Policy Gradients [17.644110838053134]
本稿では,分散化政策の学習を可能にするために,差分報酬とポリシを組み合わせた新しいアルゴリズムを提案する。
報酬関数を直接区別することで、Dr.ReinforceはQ-関数の学習に伴う困難を避けることができる。
差分報酬を推定するために用いられる追加報酬ネットワークを学習するDr.Reinforceのバージョンの有効性を示す。
論文 参考訳(メタデータ) (2020-12-21T11:23:17Z) - Joint Goal and Strategy Inference across Heterogeneous Demonstrators via
Reward Network Distillation [1.1470070927586016]
逆強化学習(IRL)は、容易に達成された人間の実演から報酬関数を学ぼうとする。
本稿では,ネットワーク蒸留による課題目標と人間の戦略的嗜好を共同で推測する手法を提案する。
本アルゴリズムは,2つの模擬タスクと実世界の卓球タスクにおいて,タスク報酬と戦略報酬をよりよく回収し,戦略を模倣できることを示す。
論文 参考訳(メタデータ) (2020-01-02T16:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。