論文の概要: Mutual Information Based Knowledge Transfer Under State-Action Dimension
Mismatch
- arxiv url: http://arxiv.org/abs/2006.07041v1
- Date: Fri, 12 Jun 2020 09:51:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 02:40:08.582703
- Title: Mutual Information Based Knowledge Transfer Under State-Action Dimension
Mismatch
- Title(参考訳): 状態次元ミスマッチに基づく相互情報に基づく知識伝達
- Authors: Michael Wan, Tanmay Gangwani, Jian Peng
- Abstract要約: 本研究では,教師と生徒が任意に状態空間と行動空間を共有できるトランスファー学習の枠組みを提案する。
このミスマッチに対処するため,教師の方針や価値ネットワークから知識を体系的に抽出できる埋め込みを生成する。
我々は,教師と生徒が異なる状態空間と行動空間を持つ状況下で,伝達学習を成功させることを実証した。
- 参考スコア(独自算出の注目度): 14.334987432342707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (RL) algorithms have achieved great success on a
wide variety of sequential decision-making tasks. However, many of these
algorithms suffer from high sample complexity when learning from scratch using
environmental rewards, due to issues such as credit-assignment and
high-variance gradients, among others. Transfer learning, in which knowledge
gained on a source task is applied to more efficiently learn a different but
related target task, is a promising approach to improve the sample complexity
in RL. Prior work has considered using pre-trained teacher policies to enhance
the learning of the student policy, albeit with the constraint that the teacher
and the student MDPs share the state-space or the action-space. In this paper,
we propose a new framework for transfer learning where the teacher and the
student can have arbitrarily different state- and action-spaces. To handle this
mismatch, we produce embeddings which can systematically extract knowledge from
the teacher policy and value networks, and blend it into the student networks.
To train the embeddings, we use a task-aligned loss and show that the
representations could be enriched further by adding a mutual information loss.
Using a set of challenging simulated robotic locomotion tasks involving
many-legged centipedes, we demonstrate successful transfer learning in
situations when the teacher and student have different state- and
action-spaces.
- Abstract(参考訳): 深部強化学習(RL)アルゴリズムは、様々なシーケンシャルな意思決定タスクにおいて大きな成功を収めている。
しかし、これらのアルゴリズムの多くは、クレジット割り当てや高分散勾配などの問題などにより、環境報酬を用いてスクラッチから学習する場合に、高いサンプル複雑さに苦しむ。
伝達学習は、ソースタスクで得られた知識をより効率的に学習するために適用され、RLにおけるサンプルの複雑さを改善するための有望なアプローチである。
これまで、教師と学生のMDPが国家空間や行動空間を共有するという制約にもかかわらず、教師の事前訓練による生徒政策の学習を強化することを検討してきた。
本稿では,教師と生徒が任意に異なる状態空間と行動空間を持つことのできる転校学習のための新しい枠組みを提案する。
このミスマッチに対処するために,教師の方針や価値ネットワークから知識を体系的に抽出し,それを学生ネットワークに組み込む組込みを作成する。
埋め込みの訓練にはタスク・アライン・ロスを使用し、相互情報損失を加えることでさらに表現を豊かにすることができることを示す。
多脚センテドを含むロボットの移動をシミュレートした課題を用いて,教師と生徒が異なる状態と行動空間を持つ状況下での転校学習を成功させる。
関連論文リスト
- Multitask Learning with No Regret: from Improved Confidence Bounds to
Active Learning [79.07658065326592]
推定タスクの不確実性の定量化は、オンラインやアクティブな学習など、多くの下流アプリケーションにとって重要な課題である。
タスク間の類似性やタスクの特徴を学習者に提供できない場合、課題設定において新しいマルチタスク信頼区間を提供する。
本稿では,このパラメータを事前に知らないまま,このような改善された後悔を実現する新しいオンライン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-03T13:08:09Z) - Evaluating the structure of cognitive tasks with transfer learning [67.22168759751541]
本研究では,脳波復号処理における深層学習表現の伝達可能性について検討した。
最近リリースされた2つのEEGデータセット上で、最先端デコードモデルを用いて広範な実験を行う。
論文 参考訳(メタデータ) (2023-07-28T14:51:09Z) - NEVIS'22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision
Research [96.53307645791179]
我々は,100以上の視覚的分類タスクのストリームからなるベンチマークであるNever-Ending VIsual-classification Stream (NEVIS'22)を紹介する。
分類に制限されているにもかかわらず、OCR、テクスチャ分析、シーン認識など、様々なタスクが生成される。
NEVIS'22は、タスクの規模と多様性のために、現在のシーケンシャルな学習アプローチに対して前例のない課題を提起している。
論文 参考訳(メタデータ) (2022-11-15T18:57:46Z) - Teacher-student curriculum learning for reinforcement learning [1.7259824817932292]
強化学習(rl)は、シーケンシャルな意思決定問題に対する一般的なパラダイムである。
深部強化学習手法のサンプル非効率性は,実世界の問題に適用する際の重要な障害である。
そこで我々は,学生が選択した課題の解き方を学習している間に,生徒の課題を選択する教師を同時に訓練する学習環境を提案する。
論文 参考訳(メタデータ) (2022-10-31T14:45:39Z) - Class-Incremental Learning via Knowledge Amalgamation [14.513858688486701]
破滅的な忘れ込みは、継続的な学習環境におけるディープラーニングアルゴリズムの展開を妨げる重要な問題である。
我々は、知識の融合(CFA)による破滅的な忘れを解消するための代替戦略を提唱した。
CFAは、過去のタスクに特化した複数の異種教師モデルから学生ネットワークを学習し、現在のオフライン手法に適用することができる。
論文 参考訳(メタデータ) (2022-09-05T19:49:01Z) - Learning Multi-Task Transferable Rewards via Variational Inverse
Reinforcement Learning [10.782043595405831]
我々は、生成的対向ネットワークの枠組みに基づく複数のタスクを伴う状況に対して、エンパワーメントに基づく正規化手法を拡張した。
未知のダイナミクスを持つマルチタスク環境下では、ラベルのない専門家の例から報酬とポリシーを学ぶことに集中する。
提案手法は, 状況的相互情報の変動的下限を導出し, 最適化する。
論文 参考訳(メタデータ) (2022-06-19T22:32:41Z) - Multi-Source Transfer Learning for Deep Model-Based Reinforcement
Learning [0.6445605125467572]
強化学習における重要な課題は、エージェントが与えられたタスクをマスターするために必要な環境との相互作用の数を減らすことである。
伝達学習は、以前に学習したタスクから知識を再利用することでこの問題に対処することを提案する。
本研究の目的は,モジュール型マルチソーストランスファー学習技術を用いて,これらの課題に対処することである。
論文 参考訳(メタデータ) (2022-05-28T12:04:52Z) - Self-Supervised Graph Neural Network for Multi-Source Domain Adaptation [51.21190751266442]
ドメイン適応(DA)は、テストデータがトレーニングデータの同じ分布に完全に従わない場合に、シナリオに取り組む。
大規模未ラベルサンプルから学習することで、自己教師型学習がディープラーニングの新しいトレンドとなっている。
我々は,より効果的なタスク間情報交換と知識共有を実現するために,新しい textbfSelf-textbf Supervised textbfGraph Neural Network (SSG) を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:56Z) - Transferability in Deep Learning: A Survey [80.67296873915176]
知識を習得し再利用する能力は、ディープラーニングにおける伝達可能性として知られている。
本研究は,深層学習における異なる孤立領域と伝達可能性との関係を関連付けるための調査である。
我々はベンチマークとオープンソースライブラリを実装し、転送可能性の観点からディープラーニング手法の公平な評価を可能にする。
論文 参考訳(メタデータ) (2022-01-15T15:03:17Z) - Learning from Guided Play: A Scheduled Hierarchical Approach for
Improving Exploration in Adversarial Imitation Learning [7.51557557629519]
本稿では,主課題,複数の補助課題に加えて,専門家による実演を活用するためのフレームワークであるLearning from Guided Play (LfGP)を紹介する。
主なタスクに対する学習効率は、ボトルネック遷移に挑戦して改善され、専門家データがタスク間で再利用可能になり、学習した補助タスクモデルの再利用を通じて学習を移行することが可能になります。
論文 参考訳(メタデータ) (2021-12-16T14:58:08Z) - Curriculum Learning for Reinforcement Learning Domains: A Framework and
Survey [53.73359052511171]
強化学習(Reinforcement Learning, RL)は、エージェントが限られた環境フィードバックしか持たないシーケンシャルな意思決定タスクに対処するための一般的なパラダイムである。
本稿では、RLにおけるカリキュラム学習(CL)の枠組みを提案し、既存のCLメソッドを仮定、能力、目標の観点から調査・分類する。
論文 参考訳(メタデータ) (2020-03-10T20:41:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。