論文の概要: Intrinsic Rewards from Self-Organizing Feature Maps for Exploration in
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2302.04125v1
- Date: Mon, 6 Feb 2023 22:44:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-09 15:52:44.243019
- Title: Intrinsic Rewards from Self-Organizing Feature Maps for Exploration in
Reinforcement Learning
- Title(参考訳): 強化学習における自己組織的特徴マップによる内在的報酬
- Authors: Marius Lindegaard, Hjalmar Jacob Vinje, Odin Aleksander Severinsen
- Abstract要約: 自己組織化特徴写像を用いて計算した深層強化学習手法の探索ボーナスを導入する。
この手法は,訓練のエポック数に匹敵する数で,人間レベルでOrdealをプレイすることができた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce an exploration bonus for deep reinforcement learning methods
calculated using self-organising feature maps. Our method uses adaptive
resonance theory (ART) providing online, unsupervised clustering to quantify
the novelty of a state. This heuristic is used to add an intrinsic reward to
the extrinsic reward signal for then to optimize the agent to maximize the sum
of these two rewards. We find that this method was able to play the game Ordeal
at a human level after a comparable number of training epochs to ICM
arXiv:1705.05464. Agents augmented with RND arXiv:1810.12894 were unable to
achieve the same level of performance in our space of hyperparameters.
- Abstract(参考訳): 自己組織的特徴地図を用いて計算した深層強化学習手法に対する探索ボーナスを提案する。
本手法は適応共振理論 (ART) を用いて, オンラインで教師なしクラスタリングを行い, 状態の新規性を定量化する。
このヒューリスティックは、この2つの報酬の合計を最大化するためにエージェントを最適化するために、外因的な報酬信号に固有の報酬を加えるために使用される。
本手法は,ICM arXiv:1705.05464に匹敵するトレーニングエポックの後に,人間レベルでOrdealをプレイすることができた。
rnd arxiv:1810.12894を添加したエージェントは、我々のハイパーパラメータ空間で同等の性能を達成できなかった。
関連論文リスト
- REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Learning Long-Term Reward Redistribution via Randomized Return
Decomposition [18.47810850195995]
軌跡フィードバックを用いたエピソード強化学習の問題点について考察する。
これは、エージェントが各軌道の終端で1つの報酬信号しか取得できないような、報酬信号の極端な遅延を指す。
本稿では,代償再分配アルゴリズムであるランダムリターン分解(RRD)を提案する。
論文 参考訳(メタデータ) (2021-11-26T13:23:36Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。
調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。
提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文 参考訳(メタデータ) (2021-06-18T17:57:00Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z) - Nested-Wasserstein Self-Imitation Learning for Sequence Generation [158.19606942252284]
分布意味マッチングのためのネスト・ワッサーシュタイン距離の概念を提案する。
ネストされたワッサーシュタインの自己想像学習フレームワークを開発し、歴史ある高次列を利用するようモデルに奨励する。
論文 参考訳(メタデータ) (2020-01-20T02:19:13Z) - Long-Term Visitation Value for Deep Exploration in Sparse Reward
Reinforcement Learning [34.38011902445557]
報酬の少ない強化学習は、依然としてオープンな課題である。
本稿では,長期訪問数を用いて,今後の探査行動を計画する新しいアプローチを提案する。
報酬と力学のモデルを使用する既存の方法とは対照的に、我々のアプローチは非政治的でモデルなしです。
論文 参考訳(メタデータ) (2020-01-01T01:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。