論文の概要: Sharing Lifelong Reinforcement Learning Knowledge via Modulating Masks
- arxiv url: http://arxiv.org/abs/2305.10997v1
- Date: Thu, 18 May 2023 14:19:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 14:45:58.009864
- Title: Sharing Lifelong Reinforcement Learning Knowledge via Modulating Masks
- Title(参考訳): 変調マスクによる生涯強化学習知識の共有
- Authors: Saptarshi Nath, Christos Peridis, Eseoghene Ben-Iwhiwhu, Xinran Liu,
Shirin Dora, Cong Liu, Soheil Kolouri, Andrea Soltoggio
- Abstract要約: 生涯学習エージェントは、生涯にわたって複数のタスクを逐次学習することを目的としている。
特定のパラメータ分離アプローチである変調マスクは、最近、教師付き学習と強化学習の両方において有望であることが示されている。
マスクを変調するパラメータ分離機構は,生涯学習者の分散システムにおけるエージェント間の知識交換に特に適していることを示す。
- 参考スコア(独自算出の注目度): 14.893594209310875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lifelong learning agents aim to learn multiple tasks sequentially over a
lifetime. This involves the ability to exploit previous knowledge when learning
new tasks and to avoid forgetting. Modulating masks, a specific type of
parameter isolation approach, have recently shown promise in both supervised
and reinforcement learning. While lifelong learning algorithms have been
investigated mainly within a single-agent approach, a question remains on how
multiple agents can share lifelong learning knowledge with each other. We show
that the parameter isolation mechanism used by modulating masks is particularly
suitable for exchanging knowledge among agents in a distributed and
decentralized system of lifelong learners. The key idea is that the isolation
of specific task knowledge to specific masks allows agents to transfer only
specific knowledge on-demand, resulting in robust and effective distributed
lifelong learning. We assume fully distributed and asynchronous scenarios with
dynamic agent numbers and connectivity. An on-demand communication protocol
ensures agents query their peers for specific masks to be transferred and
integrated into their policies when facing each task. Experiments indicate that
on-demand mask communication is an effective way to implement distributed
lifelong reinforcement learning and provides a lifelong learning benefit with
respect to distributed RL baselines such as DD-PPO, IMPALA, and PPO+EWC. The
system is particularly robust to connection drops and demonstrates rapid
learning due to knowledge exchange.
- Abstract(参考訳): 生涯学習エージェントは、生涯にわたって複数のタスクを順次学習することを目指している。
これは、新しいタスクを学ぶときに以前の知識を活用し、忘れることを避ける能力を含む。
特定のパラメータ分離アプローチである変調マスクは、最近、教師付き学習と強化学習の両方において有望であることが示されている。
生涯学習アルゴリズムは、主に単一エージェントアプローチで研究されているが、複数のエージェントが生涯学習知識を相互に共有する方法については疑問が残る。
マスクを変調するパラメータ分離機構は,生涯学習者の分散分散分散システムにおいて,エージェント間の知識交換に特に適している。
キーとなる考え方は、特定のタスク知識を特定のマスクに分離することで、エージェントは特定の知識のみをオンデマンドで転送することができ、堅牢で効果的な分散生涯学習をもたらすことである。
動的エージェント番号と接続性を備えた完全な分散と非同期のシナリオを想定しています。
オンデマンド通信プロトコルにより、エージェントは特定のマスクを転送し、各タスクに直面するときにポリシーに統合する。
実験により,オンデマンドマスク通信は,DD-PPO,IMPALA,PPO+EWCなどの分散RLベースラインに対して,分散寿命強化学習を効果的に実施し,生涯学習の便益を提供することを示す。
このシステムは接続ドロップに対して特に堅牢であり、知識交換による迅速な学習を示す。
関連論文リスト
- PEMT: Multi-Task Correlation Guided Mixture-of-Experts Enables
Parameter-Efficient Transfer Learning [30.418970256478435]
マルチタスク変換学習に基づくパラメータ効率の高いファインチューニングフレームワークPEMTを提案する。
我々は17のデータセットにまたがる幅広いタスクについて実験を行う。
論文 参考訳(メタデータ) (2024-02-23T03:59:18Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Masked Autoencoders are Efficient Continual Federated Learners [15.935694355056073]
継続的な学習は、クライアント間で共有される表現の教師なしの学習に基礎を置くべきです。
分布推定のためのマスク付きオートエンコーダはこの設定に特に適している。
論文 参考訳(メタデータ) (2023-06-06T09:38:57Z) - Lifelong Reinforcement Learning with Modulating Masks [16.24639836636365]
生涯学習は、生物学的学習と同様、生涯を通じて継続的に漸進的に学習するAIシステムを作成することを目的としている。
これまでの試みでは、破滅的な忘れ、タスク間の干渉、過去の知識を活用できないといった問題に直面してきた。
マスクによる生涯強化学習は、生涯学習、より複雑なタスクを学習するための知識の構成、より効率的かつ高速な学習のための知識再利用への有望なアプローチであることを示す。
論文 参考訳(メタデータ) (2022-12-21T15:49:20Z) - Pre-training Language Models with Deterministic Factual Knowledge [42.812774794720895]
我々は, PLM が残りのコンテキストとマスキングコンテンツとの間にある決定論的関係を学習させることを提案する。
2つの事前学習タスクを導入し、マスクを充填する際の決定論的関係に依存するようにPLMを動機付けている。
実験により, PLMは実知識の収集において, 良好な堅牢性が得られることが示された。
論文 参考訳(メタデータ) (2022-10-20T11:04:09Z) - Learning with Recoverable Forgetting [77.56338597012927]
学習wIth Recoverable Forgettingは、タスクまたはサンプル固有の知識の除去とリカバリを明示的に処理する。
具体的には、LIRFは2つの革新的なスキーム、すなわち知識預金と離脱をもたらす。
いくつかのデータセットで実験を行い、提案したLIRF戦略が一般化能力を満足させる結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-07-17T16:42:31Z) - Self-Supervised Graph Neural Network for Multi-Source Domain Adaptation [51.21190751266442]
ドメイン適応(DA)は、テストデータがトレーニングデータの同じ分布に完全に従わない場合に、シナリオに取り組む。
大規模未ラベルサンプルから学習することで、自己教師型学習がディープラーニングの新しいトレンドとなっている。
我々は,より効果的なタスク間情報交換と知識共有を実現するために,新しい textbfSelf-textbf Supervised textbfGraph Neural Network (SSG) を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:56Z) - Modular Adaptive Policy Selection for Multi-Task Imitation Learning
through Task Division [60.232542918414985]
マルチタスク学習は、しばしば負の伝達に悩まされ、タスク固有の情報を共有する。
これは、プロトポリケーションをモジュールとして使用して、タスクを共有可能な単純なサブ振る舞いに分割する。
また、タスクを共有サブ行動とタスク固有のサブ行動の両方に自律的に分割する能力を示す。
論文 参考訳(メタデータ) (2022-03-28T15:53:17Z) - Fast and Slow Learning of Recurrent Independent Mechanisms [80.38910637873066]
本稿では,エージェントが必要とする知識の断片と報酬関数が定常的であり,タスク間で再利用可能なトレーニングフレームワークを提案する。
注意機構は、どのモジュールを現在のタスクに適応できるかを動的に選択する。
提案方式のモジュール的側面のメタラーニングは,強化学習装置の高速化に大きく寄与することがわかった。
論文 参考訳(メタデータ) (2021-05-18T17:50:32Z) - Self-Attention Meta-Learner for Continual Learning [5.979373021392084]
SAM(Self-Attention Meta-Learner)は,タスクのシーケンスを学習する継続的学習の事前知識を学習する。
SAMには、将来のタスクごとに特定の関連する表現を選択することを学ぶアテンションメカニズムが組み込まれている。
タスク推論において,提案手法を Split CIFAR-10/100 と Split MNIST のベンチマークで評価した。
論文 参考訳(メタデータ) (2021-01-28T17:35:04Z) - Transfer Heterogeneous Knowledge Among Peer-to-Peer Teammates: A Model
Distillation Approach [55.83558520598304]
本研究は, モデル蒸留により, 複数の学生間で経験と伝達値関数を再利用する新しい手法を提案する。
また、異種知識を活用するための効率的な通信プロトコルの設計方法について述べる。
提案するフレームワークである学習・指導カテゴリー強化は,学習の進捗を安定化・加速する上で有望な性能を示す。
論文 参考訳(メタデータ) (2020-02-06T11:31:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。