論文の概要: Intrinsically motivated option learning: a comparative study of recent
methods
- arxiv url: http://arxiv.org/abs/2206.06007v1
- Date: Mon, 13 Jun 2022 09:51:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-14 15:03:25.604339
- Title: Intrinsically motivated option learning: a comparative study of recent
methods
- Title(参考訳): 本質的動機づけによるオプション学習:最近の方法の比較研究
- Authors: Djordje Bo\v{z}i\'c, Predrag Tadi\'c, Mladen Nikoli\'c
- Abstract要約: オプションフレームワークは、強化学習(RL)における複数の時間スケールでの推論のためのフレームワークである。
エンパワーメントの概念は、エージェントが環境に与える影響の量と、その影響を知覚する能力に対応する。
近年、多くの論文がこの概念を様々な方法で修正し、賞賛できる結果を得た。
- 参考スコア(独自算出の注目度): 0.5156484100374059
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Options represent a framework for reasoning across multiple time scales in
reinforcement learning (RL). With the recent active interest in the
unsupervised learning paradigm in the RL research community, the option
framework was adapted to utilize the concept of empowerment, which corresponds
to the amount of influence the agent has on the environment and its ability to
perceive this influence, and which can be optimized without any supervision
provided by the environment's reward structure. Many recent papers modify this
concept in various ways achieving commendable results. Through these various
modifications, however, the initial context of empowerment is often lost. In
this work we offer a comparative study of such papers through the lens of the
original empowerment principle.
- Abstract(参考訳): オプションは強化学習(RL)における複数の時間スケールでの推論のためのフレームワークである。
rl研究コミュニティにおける教師なし学習パラダイムに対する近年の活発な関心により、オプションフレームワークは、エージェントが環境に与える影響の量と、この影響を知覚する能力に対応し、環境の報酬構造によって提供される監督なしで最適化できるエンパワーメントの概念を利用するように適応された。
近年、多くの論文がこの概念を様々な方法で修正し、賞賛できる結果を得た。
しかし、これらの様々な変更を通じて、エンパワーメントの初期の文脈はしばしば失われる。
本研究では、元のエンパワーメント原理のレンズを通して、そのような論文の比較研究を行う。
関連論文リスト
- A Unifying Framework for Action-Conditional Self-Predictive Reinforcement Learning [48.59516337905877]
優れた表現を学ぶことは、強化学習(RL)エージェントにとって重要な課題である。
近年の研究では、これらのアルゴリズムに関する理論的洞察が生まれている。
我々は,行動条件の自己予測的目的を分析することによって,理論と実践のギャップを埋める一歩を踏み出した。
論文 参考訳(メタデータ) (2024-06-04T07:22:12Z) - An Investigation of Replay-based Approaches for Continual Learning [79.0660895390689]
連続学習(CL)は機械学習(ML)の大きな課題であり、破滅的忘れ(CF)を伴わずに連続的に複数のタスクを学習する能力を記述する。
いくつかの解クラスが提案されており、その単純さと堅牢性から、いわゆるリプレイベースのアプローチは非常に有望であるように思われる。
連続学習におけるリプレイに基づくアプローチを実証的に検討し,応用の可能性を評価する。
論文 参考訳(メタデータ) (2021-08-15T15:05:02Z) - Variational Empowerment as Representation Learning for Goal-Based
Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。
我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文 参考訳(メタデータ) (2021-06-02T18:12:26Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z) - Improving Few-Shot Learning through Multi-task Representation Learning
Theory [14.8429503385929]
本稿では,MTR(Multi-task representation)学習の枠組みについて考察する。
MTR理論の最近の進歩は、このフレームワーク内で解析すると、一般的なメタ学習アルゴリズムに新しい洞察を与えることができることを示す。
これは、直近のMSR理論の学習境界を、数発の分類のタスクのために実践する最初の貢献である。
論文 参考訳(メタデータ) (2020-10-05T13:24:43Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z) - Reinforcement Learning through Active Inference [62.997667081978825]
アクティブ推論のアイデアが従来の強化学習アプローチをどのように強化するかを示す。
我々は、将来望まれる自由エネルギーという、意思決定のための新しい目標を開発し、実装する。
得られたアルゴリズムが探索および利用に成功し、また、スパース、ウェル形状、報酬のないいくつかの挑戦的RLベンチマークにおいて頑健な性能を達成することを実証した。
論文 参考訳(メタデータ) (2020-02-28T10:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。