論文の概要: Towards Improving Exploration in Self-Imitation Learning using Intrinsic
Motivation
- arxiv url: http://arxiv.org/abs/2211.16838v1
- Date: Wed, 30 Nov 2022 09:18:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 15:55:56.707583
- Title: Towards Improving Exploration in Self-Imitation Learning using Intrinsic
Motivation
- Title(参考訳): 固有モチベーションを用いた自己刺激学習の探索改善に向けて
- Authors: Alain Andres, Esther Villar-Rodriguez and Javier Del Ser
- Abstract要約: 強化学習(Reinforcement Learning)は、最適化タスクを効率的に解くための強力な代替手段として登場した。
これらのアルゴリズムの使用は、学習したエージェントが行う決定がどれほど良い(または悪い)かを知らせる環境の提供するフィードバック信号に大きく依存する。
この研究では、本質的な動機付けは、エージェントが好奇心に基づいて環境を探索することを奨励するのに対して、模倣学習は学習プロセスを加速するために最も有望な経験を繰り返すことができる。
- 参考スコア(独自算出の注目度): 7.489793155793319
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning has emerged as a strong alternative to solve
optimization tasks efficiently. The use of these algorithms highly depends on
the feedback signals provided by the environment in charge of informing about
how good (or bad) the decisions made by the learned agent are. Unfortunately,
in a broad range of problems the design of a good reward function is not
trivial, so in such cases sparse reward signals are instead adopted. The lack
of a dense reward function poses new challenges, mostly related to exploration.
Imitation Learning has addressed those problems by leveraging demonstrations
from experts. In the absence of an expert (and its subsequent demonstrations),
an option is to prioritize well-suited exploration experiences collected by the
agent in order to bootstrap its learning process with good exploration
behaviors. However, this solution highly depends on the ability of the agent to
discover such trajectories in the early stages of its learning process. To
tackle this issue, we propose to combine imitation learning with intrinsic
motivation, two of the most widely adopted techniques to address problems with
sparse reward. In this work intrinsic motivation is used to encourage the agent
to explore the environment based on its curiosity, whereas imitation learning
allows repeating the most promising experiences to accelerate the learning
process. This combination is shown to yield an improved performance and better
generalization in procedurally-generated environments, outperforming previously
reported self-imitation learning methods and achieving equal or better sample
efficiency with respect to intrinsic motivation in isolation.
- Abstract(参考訳): 強化学習は最適化タスクを効率的に解くための強力な代替手段として登場した。
これらのアルゴリズムの使用は、学習したエージェントが行う決定がどれほど良い(または悪い)かを知らせる環境の提供するフィードバック信号に大きく依存する。
残念なことに、幅広い問題において、良い報酬関数の設計は自明ではないので、そのような場合、少ない報酬信号が採用される。
厳密な報酬関数の欠如は、探索に関係した新しい課題を引き起こす。
模倣学習は、専門家によるデモンストレーションを活用することで、これらの問題に対処している。
専門家(とそのその後のデモンストレーション)がいない場合、エージェントが収集した適切な探索体験を優先して、優れた探索行動で学習プロセスをブートストラップするオプションがある。
しかしながら、この解は、学習プロセスの初期段階でそのような軌道を発見するエージェントの能力に大きく依存する。
この問題に対処するために,本研究では,模擬学習と本質的な動機付けを組み合わせることを提案する。
この研究では、本質的な動機付けは、エージェントが好奇心に基づいて環境を探索することを奨励するのに対して、模倣学習は学習プロセスを加速するために最も有望な経験を繰り返すことができる。
この組み合わせは、手順的に生成された環境におけるパフォーマンスの向上と一般化をもたらし、以前報告された自己模倣学習法を上回り、孤立における本質的動機付けに関して同等またはより良いサンプル効率を達成することが示されている。
関連論文リスト
- Efficient Diversity-based Experience Replay for Deep Reinforcement Learning [14.96744975805832]
本稿では, 状態実現における多種多様なサンプルの優先順位付けに決定論的点プロセスを活用する, 多様性に基づく経験リプレイ(DBER)を提案する。
我々は,MuJoCo,Atariゲーム,ハビタットのリアルな室内環境におけるロボットマニピュレーションタスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:51:27Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、学生のパフォーマンスと専門家によるデモンストレーションとの整合性に基づいて、動的報酬関数を学習する新しいトレーナー学生システムである。
RILeは、従来のメソッドがフェールする複雑な環境でのより良いパフォーマンスを実現し、複雑なシミュレートされたロボット移動タスクにおいて、既存のメソッドを2倍の性能で上回る。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Self-supervised network distillation: an effective approach to exploration in sparse reward environments [0.0]
強化学習は、事前に設計された報酬関数に従って、エージェントが環境の中で振る舞うように訓練することができる。
そのような問題の解決策は、エージェントに情報的な探索を提供する本質的な動機を与えることであるかもしれない。
本稿では, 蒸留誤差に基づく本質的な動機づけアルゴリズムである自己教師ネットワーク蒸留(SND)を新規性指標として提示する。
論文 参考訳(メタデータ) (2023-02-22T18:58:09Z) - Curiosity-driven Exploration in Sparse-reward Multi-agent Reinforcement
Learning [0.6526824510982799]
本稿では,スパース・リワード型マルチエージェント強化学習における固有好奇性モジュールの限界について論じる。
固有好奇性モジュールとGo-Exploreフレームワークを組み合わせたI-Go-Exploreという手法を提案する。
論文 参考訳(メタデータ) (2023-02-21T17:00:05Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Collaborative Training of Heterogeneous Reinforcement Learning Agents in
Environments with Sparse Rewards: What and When to Share? [7.489793155793319]
本研究は,本質的なモチベーションを通じて得られた情報と,より効率的な探索と学習の高速化を目的とした情報を組み合わせることに焦点を当てる。
計算コストの少ない協調的なフレームワークが知識を共有することなく独立した学習プロセスより優れていることを示す。
論文 参考訳(メタデータ) (2022-02-24T16:15:51Z) - Learning from Guided Play: A Scheduled Hierarchical Approach for
Improving Exploration in Adversarial Imitation Learning [7.51557557629519]
本稿では,主課題,複数の補助課題に加えて,専門家による実演を活用するためのフレームワークであるLearning from Guided Play (LfGP)を紹介する。
主なタスクに対する学習効率は、ボトルネック遷移に挑戦して改善され、専門家データがタスク間で再利用可能になり、学習した補助タスクモデルの再利用を通じて学習を移行することが可能になります。
論文 参考訳(メタデータ) (2021-12-16T14:58:08Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Generative Inverse Deep Reinforcement Learning for Online Recommendation [62.09946317831129]
オンラインレコメンデーションのための新しい逆強化学習手法InvRecを提案する。
InvRecは、オンラインレコメンデーションのために、ユーザの行動から報酬関数を自動的に抽出する。
論文 参考訳(メタデータ) (2020-11-04T12:12:25Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。