論文の概要: Adapting to Reward Progressivity via Spectral Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2104.14138v1
- Date: Thu, 29 Apr 2021 06:33:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-30 12:54:57.581353
- Title: Adapting to Reward Progressivity via Spectral Reinforcement Learning
- Title(参考訳): スペクトル強化学習による逆進行性適応
- Authors: Michael Dann, John Thangarajah
- Abstract要約: 本研究では,大きな報酬がある場合にのみ高周波が活性化するように,報酬を周波数に分解するスペクトルdqnを提案する。
標準値ベースの手法が著しく苦戦している2つの領域において、スペクトルDQNははるかに進歩することができる。
- 参考スコア(独自算出の注目度): 12.236708154007587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we consider reinforcement learning tasks with progressive
rewards; that is, tasks where the rewards tend to increase in magnitude over
time. We hypothesise that this property may be problematic for value-based deep
reinforcement learning agents, particularly if the agent must first succeed in
relatively unrewarding regions of the task in order to reach more rewarding
regions. To address this issue, we propose Spectral DQN, which decomposes the
reward into frequencies such that the high frequencies only activate when large
rewards are found. This allows the training loss to be balanced so that it
gives more even weighting across small and large reward regions. In two domains
with extreme reward progressivity, where standard value-based methods struggle
significantly, Spectral DQN is able to make much farther progress. Moreover,
when evaluated on a set of six standard Atari games that do not overtly favour
the approach, Spectral DQN remains more than competitive: While it
underperforms one of the benchmarks in a single game, it comfortably surpasses
the benchmarks in three games. These results demonstrate that the approach is
not overfit to its target problem, and suggest that Spectral DQN may have
advantages beyond addressing reward progressivity.
- Abstract(参考訳): 本稿では、漸進的な報酬を伴う強化学習タスク、すなわち報酬が時間とともに大きくなる傾向にあるタスクについて考察する。
この性質は、価値に基づく深層強化学習エージェントにとって問題であり、特に、より報酬の高い領域に到達するために、エージェントがタスクの比較的未解決な領域を最初に成功させなければならない場合である。
そこで本研究では,大きな報酬が得られた場合にのみ高周波数が活性化するように,報酬を周波数に分解するスペクトルdqnを提案する。
これにより、トレーニング損失のバランスが取れ、小規模で大規模な報酬領域をまたいでさらに重み付けが可能になる。
標準値ベースの手法が著しく苦戦している2つの領域において、スペクトルDQNははるかに進歩することができる。
さらに、このアプローチを過度に好まない6つの標準的なatariゲームで評価した場合、spectrum dqnは競争力以上のものとなる。
これらの結果から,本手法は対象問題に対して過度に適合していないことが示され,スペクトルDQNは報酬進行性に対処する以上の利点がある可能性が示唆された。
関連論文リスト
- Beyond Simple Sum of Delayed Rewards: Non-Markovian Reward Modeling for Reinforcement Learning [44.770495418026734]
強化学習(Reinforcement Learning, RL)は、報酬信号から学習することで、エージェントに様々なスキルを習得する権限を与える。
伝統的な手法では、マルコフ報酬の根底にある存在を仮定し、観測された遅延報酬は単にインスタンスレベルの報酬の和である。
本稿では,特殊なインシーケンスアテンション機構を備えた複合遅延逆変換器(CoDeTr)を提案する。
論文 参考訳(メタデータ) (2024-10-26T13:12:27Z) - Walking the Values in Bayesian Inverse Reinforcement Learning [66.68997022043075]
ベイズIRLの鍵となる課題は、可能な報酬の仮説空間と可能性の間の計算的ギャップを埋めることである。
本稿では,この知見に基づく新しいマルコフ連鎖モンテカルロ法であるValueWalkを提案する。
論文 参考訳(メタデータ) (2024-07-15T17:59:52Z) - Robust and Performance Incentivizing Algorithms for Multi-Armed Bandits
with Strategic Agents [57.627352949446625]
マルチアームバンディット問題の変種を考察する。
具体的には、武器は、報酬を改善したり、吸収したりできる戦略的なエージェントである。
我々は、プロパティの集合を満たすMABアルゴリズムのクラスを特定し、それらが平衡におけるトップレベルのパフォーマンスを刺激するメカニズムをもたらすことを示す。
論文 参考訳(メタデータ) (2023-12-13T06:54:49Z) - DreamSmooth: Improving Model-based Reinforcement Learning via Reward
Smoothing [60.21269454707625]
DreamSmoothは、与えられたタイミングでの正確な報酬ではなく、時間的に滑らかな報酬を予測することを学ぶ。
本研究では,DreamSmoothが長時間のスパース・リワードタスクにおいて最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-11-02T17:57:38Z) - Redeeming Intrinsic Rewards via Constrained Optimization [17.203887958936168]
最先端強化学習(RL)アルゴリズムは、通常、探索にランダムサンプリング(例えば$epsilon$-greedy)を用いるが、モンテズマのRevengeのようなハードな探索には失敗する。
探索ボーナス(本質的な報酬または好奇心とも呼ばれる)を使って、エージェントが新しい国家を訪問する動機付けをする以前の作品
このような手法は, 厳密な探索作業において優れた結果をもたらすが, 課題報酬のみを用いて訓練したエージェントと比較して, 内在的な報酬バイアスや過小評価に悩まされる可能性がある。
そこで本研究では,本質的な報酬の重要度を自動的に調整する制約付きポリシ最適化手法を提案する。
論文 参考訳(メタデータ) (2022-11-14T18:49:26Z) - URLB: Unsupervised Reinforcement Learning Benchmark [82.36060735454647]
教師なし強化学習ベンチマーク(URLB)を紹介する。
URLBは2つのフェーズで構成されている。
評価のために3つのドメインから12の連続制御タスクを提供し、8つの主要な教師なしRLメソッドに対してオープンソースコードを提供する。
論文 参考訳(メタデータ) (2021-10-28T15:07:01Z) - Improve Agents without Retraining: Parallel Tree Search with Off-Policy
Correction [63.595545216327245]
木探索(TS)における2つの大きな課題に取り組む。
我々はまず、TSと事前学習された値関数による行動選択が、元の事前学習されたエージェントと比較して性能を低下させるという、反直感的な現象を発見し、分析する。
Batch-BFS(Batch-BFS)は,木の各深さのすべてのノードを同時に前進させるGPUワイドファースト検索である。
論文 参考訳(メタデータ) (2021-07-04T19:32:24Z) - DORB: Dynamically Optimizing Multiple Rewards with Bandits [101.68525259222164]
政策に基づく強化学習は、言語生成タスクにおいて、微分不可能な評価指標を最適化するための有望なアプローチであることが証明されている。
We use the Exp3 algorithm for bandit and formulate two approach for bandit rewards: (1) Single Multi-reward Bandit (SM-Bandit), (2) Hierarchical Multi-reward Bandit (HM-Bandit)
我々は,2つの重要なNLGタスクにおいて,様々な自動計測と人的評価を通じて,我々のアプローチの有効性を実証的に示す。
論文 参考訳(メタデータ) (2020-11-15T21:57:47Z) - Action Guidance: Getting the Best of Sparse Rewards and Shaped Rewards
for Real-time Strategy Games [0.0]
報酬の少ないゲームで強化学習を使用するトレーニングエージェントは難しい問題である。
エージェントを訓練して,ゲームにおける真の目的を軽率な報酬で最終的に最適化する手法を提案する。
論文 参考訳(メタデータ) (2020-10-05T03:43:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。