論文の概要: Multi-Source Transfer Learning for Deep Model-Based Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2205.14410v1
- Date: Sat, 28 May 2022 12:04:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 14:13:42.707090
- Title: Multi-Source Transfer Learning for Deep Model-Based Reinforcement
Learning
- Title(参考訳): 深層モデルに基づく強化学習のための多元トランスファー学習
- Authors: Remo Sasso, Matthia Sabatelli, Marco A. Wiering
- Abstract要約: 本研究では,世界モデルから得られた環境の簡易表現が,伝達学習に有望な機会をもたらすことを示す。
マルチタスクとマルチエージェントの両方の設定から,関連する知識を自律的に抽出する手法を提案する。
提案手法は,異なる状態,報酬,行動空間で異なる領域から学習を伝達できることを実証する。
- 参考スコア(独自算出の注目度): 0.6445605125467572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in deep model-based reinforcement learning allows agents to
be significantly more sample efficient by constructing world models of
high-dimensional environments from visual observations, which enables agents to
learn complex behaviours in summarized lower-dimensional spaces. Reusing
knowledge from relevant previous tasks is another approach for achieving better
data-efficiency, which becomes especially more likely when information of
multiple previously learned tasks is accessible. We show that the simplified
representations of environments resulting from world models provide for
promising transfer learning opportunities, by introducing several methods that
facilitate world model agents to benefit from multi-source transfer learning.
Methods are proposed for autonomously extracting relevant knowledge from both
multi-task and multi-agent settings as multi-source origins, resulting in
substantial performance improvements compared to learning from scratch. We
introduce two additional novel techniques that enable and enhance the proposed
approaches respectively: fractional transfer learning and universal feature
spaces from a universal autoencoder. We demonstrate that our methods enable
transfer learning from different domains with different state, reward, and
action spaces by performing extensive and challenging multi-domain experiments
on Dreamer, the state-of-the-art world model based algorithm for visual
continuous control tasks.
- Abstract(参考訳): 深層モデルに基づく強化学習の最近の進歩により、エージェントは視覚的観察から高次元環境の世界モデルを構築することにより、エージェントがより効率的にサンプルを作成できるようになる。
以前のタスクから知識を再利用することは、より優れたデータ効率を達成するための別のアプローチである。
本稿では,世界モデルから得られる環境の簡易表現が,多元トランスファー学習のメリットを享受するためのいくつかの手法を導入することにより,トランスファー学習の機会を期待できることを示す。
マルチタスクとマルチエージェントの両方の設定から関連する知識を多ソースソースとして自律的に抽出する手法が提案され、スクラッチから学習するよりも性能が大幅に向上した。
提案手法を適用・拡張する2つの新しい手法として,分数変換学習とユニバーサルオートエンコーダによる普遍的特徴空間を提案する。
本手法は,視覚連続制御タスクのための最先端世界モデルベースアルゴリズムであるdreamer上で多領域実験を行うことにより,異なる状態,報酬,行動空間を持つ異なるドメインからの転送学習を可能にする。
関連論文リスト
- Similarity-based Knowledge Transfer for Cross-Domain Reinforcement
Learning [3.3148826359547523]
我々は,エンコーダ・デコーダのセットを用いて,異なる空間に適合する半教師付きアライメント損失を開発する。
従来の手法と比較して、我々の手法は専門家のポリシーによって整列、ペア化、あるいは収集されるデータを必要としない。
論文 参考訳(メタデータ) (2023-12-05T19:26:01Z) - A Multi-Task Approach to Robust Deep Reinforcement Learning for Resource
Allocation [8.508198765617195]
我々は、稀で重要なイベントを適切に扱わなければならないリソース割り当ての課題について検討する。
我々は、Elastic Weight Consolidation と Gradient Episodic Memory をバニラアクター批判スケジューラに統合する。
我々は、ブラックスワンイベントを扱う際のそれらのパフォーマンスと、トレーニングデータ分布を増大させる最先端の技術を比較した。
論文 参考訳(メタデータ) (2023-04-25T09:05:36Z) - Self-Supervised Graph Neural Network for Multi-Source Domain Adaptation [51.21190751266442]
ドメイン適応(DA)は、テストデータがトレーニングデータの同じ分布に完全に従わない場合に、シナリオに取り組む。
大規模未ラベルサンプルから学習することで、自己教師型学習がディープラーニングの新しいトレンドとなっている。
我々は,より効果的なタスク間情報交換と知識共有を実現するために,新しい textbfSelf-textbf Supervised textbfGraph Neural Network (SSG) を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:56Z) - Active Multi-Task Representation Learning [50.13453053304159]
本研究は,アクティブラーニングの手法を活用することで,資源タスクのサンプリングに関する最初の公式な研究を行う。
提案手法は, 対象タスクに対する各ソースタスクの関連性を反復的に推定し, その関連性に基づいて各ソースタスクからサンプルを抽出するアルゴリズムである。
論文 参考訳(メタデータ) (2022-02-02T08:23:24Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Transferability in Deep Learning: A Survey [80.67296873915176]
知識を習得し再利用する能力は、ディープラーニングにおける伝達可能性として知られている。
本研究は,深層学習における異なる孤立領域と伝達可能性との関係を関連付けるための調査である。
我々はベンチマークとオープンソースライブラリを実装し、転送可能性の観点からディープラーニング手法の公平な評価を可能にする。
論文 参考訳(メタデータ) (2022-01-15T15:03:17Z) - Learning from Guided Play: A Scheduled Hierarchical Approach for
Improving Exploration in Adversarial Imitation Learning [7.51557557629519]
本稿では,主課題,複数の補助課題に加えて,専門家による実演を活用するためのフレームワークであるLearning from Guided Play (LfGP)を紹介する。
主なタスクに対する学習効率は、ボトルネック遷移に挑戦して改善され、専門家データがタスク間で再利用可能になり、学習した補助タスクモデルの再利用を通じて学習を移行することが可能になります。
論文 参考訳(メタデータ) (2021-12-16T14:58:08Z) - Transfer Learning in Deep Reinforcement Learning: A Survey [64.36174156782333]
強化学習は、シーケンシャルな意思決定問題を解決するための学習パラダイムである。
近年、ディープニューラルネットワークの急速な発展により、強化学習の顕著な進歩が見られた。
転校学習は 強化学習が直面する様々な課題に 対処するために生まれました
論文 参考訳(メタデータ) (2020-09-16T18:38:54Z) - Mutual Information Based Knowledge Transfer Under State-Action Dimension
Mismatch [14.334987432342707]
本研究では,教師と生徒が任意に状態空間と行動空間を共有できるトランスファー学習の枠組みを提案する。
このミスマッチに対処するため,教師の方針や価値ネットワークから知識を体系的に抽出できる埋め込みを生成する。
我々は,教師と生徒が異なる状態空間と行動空間を持つ状況下で,伝達学習を成功させることを実証した。
論文 参考訳(メタデータ) (2020-06-12T09:51:17Z) - Curriculum Learning for Reinforcement Learning Domains: A Framework and
Survey [53.73359052511171]
強化学習(Reinforcement Learning, RL)は、エージェントが限られた環境フィードバックしか持たないシーケンシャルな意思決定タスクに対処するための一般的なパラダイムである。
本稿では、RLにおけるカリキュラム学習(CL)の枠組みを提案し、既存のCLメソッドを仮定、能力、目標の観点から調査・分類する。
論文 参考訳(メタデータ) (2020-03-10T20:41:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。