論文の概要: Can Q-learning solve Multi Armed Bantids?
- arxiv url: http://arxiv.org/abs/2110.10934v1
- Date: Thu, 21 Oct 2021 07:08:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-23 07:58:47.680118
- Title: Can Q-learning solve Multi Armed Bantids?
- Title(参考訳): マルチアームバンティードはQラーニングで解けるか?
- Authors: Refael Vivanti
- Abstract要約: 現在の強化学習アルゴリズムでは,マルチアーマッド・バンディット問題を解くことができないことを示す。
これはポリシー間の差異が原因であり、2つの問題を引き起こす。
本稿では,アダプティブ・シンメトリ・リワード・ノーミング(ASRN)手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When a reinforcement learning (RL) method has to decide between several
optional policies by solely looking at the received reward, it has to
implicitly optimize a Multi-Armed-Bandit (MAB) problem. This arises the
question: are current RL algorithms capable of solving MAB problems? We claim
that the surprising answer is no. In our experiments we show that in some
situations they fail to solve a basic MAB problem, and in many common
situations they have a hard time: They suffer from regression in results during
training, sensitivity to initialization and high sample complexity. We claim
that this stems from variance differences between policies, which causes two
problems: The first problem is the "Boring Policy Trap" where each policy have
a different implicit exploration depends on its rewards variance, and leaving a
boring, or low variance, policy is less likely due to its low implicit
exploration. The second problem is the "Manipulative Consultant" problem, where
value-estimation functions used in deep RL algorithms such as DQN or deep Actor
Critic methods, maximize estimation precision rather than mean rewards, and
have a better loss in low-variance policies, which cause the network to
converge to a sub-optimal policy. Cognitive experiments on humans showed that
noised reward signals may paradoxically improve performance. We explain this
using the aforementioned problems, claiming that both humans and algorithms may
share similar challenges in decision making.
Inspired by this result, we propose the Adaptive Symmetric Reward Noising
(ASRN) method, by which we mean equalizing the rewards variance across
different policies, thus avoiding the two problems without affecting the
environment's mean rewards behavior. We demonstrate that the ASRN scheme can
dramatically improve the results.
- Abstract(参考訳): 強化学習(RL)法では,報酬のみを考慮し,任意の政策を決定する必要がある場合,マルチアーマッド・バンディット(MAB)問題を暗黙的に最適化する必要がある。
現在のRLアルゴリズムはMABの問題を解決することができるのか?
私たちは意外な答えはノーだと主張する。
私たちの実験では、いくつかの状況では基本的なmab問題の解決に失敗し、多くの一般的な状況では、トレーニング中の結果の回帰、初期化に対する感受性、高いサンプル複雑性に苦しむという困難さがあります。
第一の問題は、それぞれのポリシーが異なる暗黙的な調査を行う際の「ボーリングポリシートラップ」であり、その報酬のばらつきに依存し、退屈で、あるいは低いばらつきを残している。
第二の問題は「マニピュティブ・コンサルタント」問題であり、DQNやディープアクター・クリティカル法のような深部RLアルゴリズムで用いられる値推定関数は、平均報酬よりも推定精度を最大化し、低分散ポリシーの損失がより良くなり、ネットワークが最適化されたポリシーに収束する。
人間に対する認知実験では、ノイズのある報酬信号がパラドックス的に性能を向上することを示した。
上記の問題を用いてこれを説明し、人間とアルゴリズムの両方が意思決定において同様の課題を共有できると主張している。
この結果に触発されて,環境平均報酬行動に影響を与えずに2つの問題を回避し,異なるポリシーにまたがる報酬分散を均等化する適応型対称報酬ノージング(asrn)法を提案する。
我々は、ASRN方式が結果を大幅に改善できることを実証した。
関連論文リスト
- Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Inverse Reinforcement Learning with the Average Reward Criterion [3.719493310637464]
本稿では, 逆強化学習(IRL)の問題点を, 平均回帰基準を用いて検討する。
目的は、エージェントが経験豊富なエージェントから状態とアクションのサンプルしか持たない場合、未知のポリシーと報酬関数を回復することである。
論文 参考訳(メタデータ) (2023-05-24T01:12:08Z) - Mean-Semivariance Policy Optimization via Risk-Averse Reinforcement
Learning [12.022303947412917]
本稿では,強化学習における平均半変量基準の最適化を目的とした。
我々は,政策依存型報酬関数を用いて一連のRL問題を反復的に解くことで,MSV問題を解くことができることを明らかにした。
政策勾配理論と信頼領域法に基づく2つのオンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-15T08:32:53Z) - CAMEO: Curiosity Augmented Metropolis for Exploratory Optimal Policies [62.39667564455059]
最適政策の分布を考察し研究する。
実験シミュレーションでは、CAMEOは古典的な制御問題を全て解決するポリシーを実際に得ることを示した。
さらに,本論文では,異なるリスクプロファイルを示す異なるポリシーを,解釈可能性に関する興味深い実践的応用に対応して提示する。
論文 参考訳(メタデータ) (2022-05-19T09:48:56Z) - Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。
目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。
ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文 参考訳(メタデータ) (2021-02-13T12:57:51Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Hindsight Experience Replay with Kronecker Product Approximate Curvature [5.441932327359051]
Hindsight Experience Replay (HER) は強化学習タスクを解決するアルゴリズムの1つである。
しかし、サンプル効率が低下し、収束が遅いため、HERは効率よく動作しない。
自然勾配はモデルパラメータをより収束させることによってこれらの課題を解決する。
提案手法は, 以上の課題を, より優れたサンプル効率, より高速な収束で解決し, 成功率を向上する。
論文 参考訳(メタデータ) (2020-10-09T20:25:14Z) - Active Finite Reward Automaton Inference and Reinforcement Learning
Using Queries and Counterexamples [31.31937554018045]
深部強化学習(RL)法は, 良好な性能を達成するために, 環境探索からの集中的なデータを必要とする。
本稿では,RLエージェントが探索過程を推論し,その将来的な探索を効果的に導くための高レベルの知識を蒸留するフレームワークを提案する。
具体的には、L*学習アルゴリズムを用いて、有限報酬オートマトンという形で高レベルの知識を学習する新しいRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-28T21:13:08Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。