論文の概要: Learning Transferable Concepts in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2005.07870v4
- Date: Tue, 22 Feb 2022 08:08:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 13:23:22.526101
- Title: Learning Transferable Concepts in Deep Reinforcement Learning
- Title(参考訳): 深層強化学習における伝達可能な概念の学習
- Authors: Diego Gomez, Nicanor Quijano, Luis Felipe Giraldo
- Abstract要約: 感覚入力の離散的な表現を学習することで、複数のタスクに共通するハイレベルな抽象化が得られることを示す。
特に,情報理論のアプローチに従って,自己超越によってそのような表現を学習することは可能であることを示す。
本手法は, 未知タスクと未知タスクの両方において, サンプル効率を高めるための, 機関車および最適制御タスクの概念を学習することができる。
- 参考スコア(独自算出の注目度): 0.7161783472741748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While humans and animals learn incrementally during their lifetimes and
exploit their experience to solve new tasks, standard deep reinforcement
learning methods specialize to solve only one task at a time. As a result, the
information they acquire is hardly reusable in new situations. Here, we
introduce a new perspective on the problem of leveraging prior knowledge to
solve future tasks. We show that learning discrete representations of sensory
inputs can provide a high-level abstraction that is common across multiple
tasks, thus facilitating the transference of information. In particular, we
show that it is possible to learn such representations by self-supervision,
following an information theoretic approach. Our method is able to learn
concepts in locomotive and optimal control tasks that increase the sample
efficiency in both known and unknown tasks, opening a new path to endow
artificial agents with generalization abilities.
- Abstract(参考訳): 人間と動物は生涯を通じて段階的に学習し、経験を生かして新しいタスクを解決する一方で、標準的な深層強化学習法は一度に1つのタスクだけを解決することを専門としている。
その結果、新たな状況において、彼らが獲得した情報が再利用可能なものはほとんどない。
本稿では,今後の課題を解決するために,事前知識を活用するという新たな視点を紹介する。
感覚入力の離散表現の学習は、複数のタスクにまたがって共通するハイレベルな抽象化を提供し、情報の伝達を容易にする。
特に,情報理論のアプローチに従って,自己超越によってそのような表現を学習することは可能であることを示す。
本手法は, 既知のタスクと未知のタスクの両方においてサンプル効率を向上させるための, 機関車や最適制御タスクの概念を学習することができ, 汎用化能力を持つ人工エージェントへの新たな道を開く。
関連論文リスト
- Learning Options via Compression [62.55893046218824]
そこで本研究では,スキル記述長に対するペナルティと,最大限の目標を組み合わさった新たな目的を提案する。
我々の目的は、最大化可能性のみから学んだスキルと比較して、下流のタスクを少ないサンプルで解くスキルを学ぶことである。
論文 参考訳(メタデータ) (2022-12-08T22:34:59Z) - Unsupervised Reinforcement Learning for Transferable Manipulation Skill
Discovery [22.32327908453603]
ロボット工学における現在の強化学習(RL)は、しばしば新しい下流タスクへの一般化の難しさを経験する。
本稿では,タスク固有の報酬にアクセスできることなく,タスクに依存しない方法でエージェントを事前訓練するフレームワークを提案する。
提案手法は,最も多様なインタラクション動作を実現し,下流タスクのサンプル効率を大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-04-29T06:57:46Z) - Teachable Reinforcement Learning via Advice Distillation [161.43457947665073]
外部教師が提供した構造化アドバイスから学習する「教育可能な」意思決定システムに基づく対話型学習のための新しい指導パラダイムを提案する。
我々は、アドバイスから学ぶエージェントが、標準的な強化学習アルゴリズムよりも人的監督力の少ない新しいスキルを習得できることを示す。
論文 参考訳(メタデータ) (2022-03-19T03:22:57Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Transferability in Deep Learning: A Survey [80.67296873915176]
知識を習得し再利用する能力は、ディープラーニングにおける伝達可能性として知られている。
本研究は,深層学習における異なる孤立領域と伝達可能性との関係を関連付けるための調査である。
我々はベンチマークとオープンソースライブラリを実装し、転送可能性の観点からディープラーニング手法の公平な評価を可能にする。
論文 参考訳(メタデータ) (2022-01-15T15:03:17Z) - Learning from Guided Play: A Scheduled Hierarchical Approach for
Improving Exploration in Adversarial Imitation Learning [7.51557557629519]
本稿では,主課題,複数の補助課題に加えて,専門家による実演を活用するためのフレームワークであるLearning from Guided Play (LfGP)を紹介する。
主なタスクに対する学習効率は、ボトルネック遷移に挑戦して改善され、専門家データがタスク間で再利用可能になり、学習した補助タスクモデルの再利用を通じて学習を移行することが可能になります。
論文 参考訳(メタデータ) (2021-12-16T14:58:08Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。