論文の概要: How Transferable are the Representations Learned by Deep Q Agents?
- arxiv url: http://arxiv.org/abs/2002.10021v1
- Date: Mon, 24 Feb 2020 00:23:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 02:52:48.686017
- Title: How Transferable are the Representations Learned by Deep Q Agents?
- Title(参考訳): ディープqエージェントが学習した表現はどの程度転送可能か?
- Authors: Jacob Tyo and Zachary Lipton
- Abstract要約: 我々は、Deep Reinforcement Learningのサンプル複雑さの源泉について考察する。
我々は、移行学習の利点を、ゼロからポリシーを学ぶことと比較する。
転送による利点は、一般に非常に可変であり、タスクのペア間で非対称である。
- 参考スコア(独自算出の注目度): 13.740174266824532
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In this paper, we consider the source of Deep Reinforcement Learning (DRL)'s
sample complexity, asking how much derives from the requirement of learning
useful representations of environment states and how much is due to the sample
complexity of learning a policy. While for DRL agents, the distinction between
representation and policy may not be clear, we seek new insight through a set
of transfer learning experiments. In each experiment, we retain some fraction
of layers trained on either the same game or a related game, comparing the
benefits of transfer learning to learning a policy from scratch. Interestingly,
we find that benefits due to transfer are highly variable in general and
non-symmetric across pairs of tasks. Our experiments suggest that perhaps
transfer from simpler environments can boost performance on more complex
downstream tasks and that the requirements of learning a useful representation
can range from negligible to the majority of the sample complexity, based on
the environment. Furthermore, we find that fine-tuning generally outperforms
training with the transferred layers frozen, confirming an insight first noted
in the classification setting.
- Abstract(参考訳): 本稿では,Deep Reinforcement Learning(DRL)のサンプル複雑性の源泉について考察し,環境状態の有用な表現を学習することの要件と,政策学習のサンプル複雑性がどの程度の原因であるかを問う。
DRLエージェントについては,表現と政策の区別が明確でない場合があるが,一連の移動学習実験を通じて新たな知見を求める。
それぞれの実験では、同じゲームまたは関連するゲームでトレーニングされたいくつかのレイヤを保持し、移行学習の利点とポリシーをスクラッチから学習することを比較します。
興味深いことに、転送による利点は一般的に非常に可変であり、タスクのペア間で非対称である。
我々の実験では、より単純な環境から移行することで、より複雑な下流タスクのパフォーマンスが向上する可能性が示唆され、有用な表現を学ぶことの要件は、環境に基づいたサンプル複雑性の大部分にまで及ぶ可能性がある。
さらに, 微調整は, 移動層を凍結したトレーニングよりも優れており, 分類設定で最初に指摘された知見が確認できた。
関連論文リスト
- Provable Benefit of Multitask Representation Learning in Reinforcement
Learning [46.11628795660159]
本稿では,低ランクマルコフ決定過程(MDP)モデルに基づく表現学習の利点を理論的に特徴づける。
我々の知る限りでは、探索に基づく報酬なしマルチタスク強化学習における表現学習の利点を特徴づける最初の理論的研究である。
論文 参考訳(メタデータ) (2022-06-13T04:29:02Z) - Chaos is a Ladder: A New Theoretical Understanding of Contrastive
Learning via Augmentation Overlap [64.60460828425502]
コントラスト学習の下流性能に関する新たな保証を提案する。
我々の新しい理論は、攻撃的なデータ強化の下で、異なるクラス内サンプルのサポートがより重なり合うという知見に基づいている。
本稿では、下流の精度とよく一致した教師なしモデル選択距離ARCを提案する。
論文 参考訳(メタデータ) (2022-03-25T05:36:26Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - Fractional Transfer Learning for Deep Model-Based Reinforcement Learning [0.966840768820136]
強化学習(Reinforcement Learning, RL)は、RLエージェントが複雑なタスクを実行することを学ぶために大量のデータを必要とすることで知られている。
モデルベースRLの最近の進歩により、エージェントはずっとデータ効率が良い。
簡単な代替手法として、分数変換学習を提案する。
論文 参考訳(メタデータ) (2021-08-14T12:44:42Z) - Reinforcement Learning with Prototypical Representations [114.35801511501639]
Proto-RLは、プロトタイプ表現を通じて表現学習と探索を結び付ける自己監督型フレームワークである。
これらのプロトタイプは、エージェントの探索経験の要約と同時に、観察を表す基盤としても機能する。
これにより、困難な連続制御タスクのセットで最新の下流ポリシー学習が可能になります。
論文 参考訳(メタデータ) (2021-02-22T18:56:34Z) - When Is Generalizable Reinforcement Learning Tractable? [74.87383727210705]
複数の環境に一般化可能なRLエージェントの訓練に必要なクエリ複雑性について検討する。
異なる環境の相対的近接性を正確に特徴付ける構造条件である強近接を導入する。
この条件の自然な弱化の下では、rlは水平方向に指数関数的であるクエリの複雑さを必要とする。
論文 参考訳(メタデータ) (2021-01-01T19:08:24Z) - Learning to Sample with Local and Global Contexts in Experience Replay
Buffer [135.94190624087355]
遷移の相対的重要性を計算できる学習に基づく新しいサンプリング手法を提案する。
本研究の枠組みは, 様々な非政治強化学習手法の性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:12:56Z) - Pre-trained Word Embeddings for Goal-conditional Transfer Learning in
Reinforcement Learning [0.0]
本稿では,事前訓練されたタスク非依存言語モデルによって,目標条件付きRLエージェントをより効率的にする方法について述べる。
私たちは、異なる関連するタスク間の伝達学習を容易にすることで、これを実現します。
論文 参考訳(メタデータ) (2020-07-10T06:42:00Z) - Hierarchically Decoupled Imitation for Morphological Transfer [95.19299356298876]
形態学的に単純なエージェントから学習情報を転送することで、より複雑なエージェントのサンプル効率を大幅に向上させることができることを示す。
まず、より単純なエージェントの低レベルを模倣するために複雑なエージェントの低レベルをインセンティブ化すると、ゼロショット高レベル転送が大幅に改善されることを示す。
第2に,高レベルのKL正規化学習が学習を安定させ,モデム崩壊を防ぐことを示す。
論文 参考訳(メタデータ) (2020-03-03T18:56:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。