論文の概要: The Information Geometry of Unsupervised Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2110.02719v1
- Date: Wed, 6 Oct 2021 13:08:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 23:02:34.249317
- Title: The Information Geometry of Unsupervised Reinforcement Learning
- Title(参考訳): 教師なし強化学習の情報幾何学
- Authors: Benjamin Eysenbach, Ruslan Salakhutdinov, and Sergey Levine
- Abstract要約: 教師なしスキル発見(英語: Unsupervised skill discovery)とは、報酬関数にアクセスせずに一連のポリシーを学ぶアルゴリズムのクラスである。
教師なしのスキル発見アルゴリズムは、あらゆる報酬関数に最適なスキルを学習しないことを示す。
- 参考スコア(独自算出の注目度): 133.20816939521941
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How can a reinforcement learning (RL) agent prepare to solve downstream tasks
if those tasks are not known a priori? One approach is unsupervised skill
discovery, a class of algorithms that learn a set of policies without access to
a reward function. Such algorithms bear a close resemblance to representation
learning algorithms (e.g., contrastive learning) in supervised learning, in
that both are pretraining algorithms that maximize some approximation to a
mutual information objective. While prior work has shown that the set of skills
learned by such methods can accelerate downstream RL tasks, prior work offers
little analysis into whether these skill learning algorithms are optimal, or
even what notion of optimality would be appropriate to apply to them. In this
work, we show that unsupervised skill discovery algorithms based on mutual
information maximization do not learn skills that are optimal for every
possible reward function. However, we show that the distribution over skills
provides an optimal initialization minimizing regret against
adversarially-chosen reward functions, assuming a certain type of adaptation
procedure. Our analysis also provides a geometric perspective on these skill
learning methods.
- Abstract(参考訳): 強化学習(RL)エージェントは、これらのタスクが事前知識がない場合、下流タスクをどうやって解決できるのか?
ひとつはunsupervised skill discoveryで、報酬機能にアクセスせずに一連のポリシーを学習するアルゴリズムのクラスだ。
このようなアルゴリズムは、教師付き学習における表現学習アルゴリズム(例えば、対照的な学習)とよく似ているが、どちらも相互情報目的に対する近似を最大化する事前学習アルゴリズムである。
先行研究は、そのような手法によって学習されたスキルセットが下流のRLタスクを加速することを示したが、先行研究は、これらのスキル学習アルゴリズムが最適かどうか、あるいは、最適性の概念がそれらに適用するのに適切かどうかをほとんど分析しない。
本研究では,相互情報の最大化に基づく教師なしスキル発見アルゴリズムが,任意の報酬関数に最適なスキルを学習しないことを示す。
しかし, スキルの分布は, 特定の適応手順を仮定して, 敵対的報酬関数に対する後悔を最小化する最適な初期化を提供することを示した。
我々の分析は、これらのスキル学習方法に関する幾何学的視点も提供する。
関連論文リスト
- Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Inapplicable Actions Learning for Knowledge Transfer in Reinforcement
Learning [3.194414753332705]
学習不能な動作はRLアルゴリズムのサンプル効率を大幅に向上させることを示す。
得られた知識の伝達性のおかげで、学習プロセスをより効率的にするために、他のタスクやドメインで再利用することができる。
論文 参考訳(メタデータ) (2022-11-28T17:45:39Z) - A Generalist Neural Algorithmic Learner [18.425083543441776]
我々は、幅広いアルゴリズムを実行することを学習できる単一のグラフニューラルネットワークプロセッサを構築している。
マルチタスク方式でアルゴリズムを効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-09-22T16:41:33Z) - Towards Diverse Evaluation of Class Incremental Learning: A Representation Learning Perspective [67.45111837188685]
クラスインクリメンタル学習(CIL)アルゴリズムは、インクリメンタルに到着したデータから新しいオブジェクトクラスを継続的に学習することを目的としている。
表現学習における様々な評価プロトコルを用いて,CILアルゴリズムによって訓練されたニューラルネットワークモデルを実験的に解析する。
論文 参考訳(メタデータ) (2022-06-16T11:44:11Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Towards Understanding the Behaviors of Optimal Deep Active Learning
Algorithms [19.65665942630067]
アクティブラーニング(AL)アルゴリズムは、モデルがデータ選択プロセスを導くため、より少ないデータでより良いパフォーマンスを達成できます。
alの最適形状についてはほとんど研究されていないため、研究者たちはモデルがどこが不足しているかを理解するのに役立つだろう。
我々は,この最適オラクルを探索し,いくつかのタスクで解析するシミュレーションアニーリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-29T22:56:42Z) - Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。
本稿では,更新ルール全体を検出するメタラーニング手法を提案する。
これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文 参考訳(メタデータ) (2020-07-17T07:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。