論文の概要: Sharing Lifelong Reinforcement Learning Knowledge via Modulating Masks
- arxiv url: http://arxiv.org/abs/2305.10997v1
- Date: Thu, 18 May 2023 14:19:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 14:45:58.009864
- Title: Sharing Lifelong Reinforcement Learning Knowledge via Modulating Masks
- Title(参考訳): 変調マスクによる生涯強化学習知識の共有
- Authors: Saptarshi Nath, Christos Peridis, Eseoghene Ben-Iwhiwhu, Xinran Liu,
Shirin Dora, Cong Liu, Soheil Kolouri, Andrea Soltoggio
- Abstract要約: 生涯学習エージェントは、生涯にわたって複数のタスクを逐次学習することを目的としている。
特定のパラメータ分離アプローチである変調マスクは、最近、教師付き学習と強化学習の両方において有望であることが示されている。
マスクを変調するパラメータ分離機構は,生涯学習者の分散システムにおけるエージェント間の知識交換に特に適していることを示す。
- 参考スコア(独自算出の注目度): 14.893594209310875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lifelong learning agents aim to learn multiple tasks sequentially over a
lifetime. This involves the ability to exploit previous knowledge when learning
new tasks and to avoid forgetting. Modulating masks, a specific type of
parameter isolation approach, have recently shown promise in both supervised
and reinforcement learning. While lifelong learning algorithms have been
investigated mainly within a single-agent approach, a question remains on how
multiple agents can share lifelong learning knowledge with each other. We show
that the parameter isolation mechanism used by modulating masks is particularly
suitable for exchanging knowledge among agents in a distributed and
decentralized system of lifelong learners. The key idea is that the isolation
of specific task knowledge to specific masks allows agents to transfer only
specific knowledge on-demand, resulting in robust and effective distributed
lifelong learning. We assume fully distributed and asynchronous scenarios with
dynamic agent numbers and connectivity. An on-demand communication protocol
ensures agents query their peers for specific masks to be transferred and
integrated into their policies when facing each task. Experiments indicate that
on-demand mask communication is an effective way to implement distributed
lifelong reinforcement learning and provides a lifelong learning benefit with
respect to distributed RL baselines such as DD-PPO, IMPALA, and PPO+EWC. The
system is particularly robust to connection drops and demonstrates rapid
learning due to knowledge exchange.
- Abstract(参考訳): 生涯学習エージェントは、生涯にわたって複数のタスクを順次学習することを目指している。
これは、新しいタスクを学ぶときに以前の知識を活用し、忘れることを避ける能力を含む。
特定のパラメータ分離アプローチである変調マスクは、最近、教師付き学習と強化学習の両方において有望であることが示されている。
生涯学習アルゴリズムは、主に単一エージェントアプローチで研究されているが、複数のエージェントが生涯学習知識を相互に共有する方法については疑問が残る。
マスクを変調するパラメータ分離機構は,生涯学習者の分散分散分散システムにおいて,エージェント間の知識交換に特に適している。
キーとなる考え方は、特定のタスク知識を特定のマスクに分離することで、エージェントは特定の知識のみをオンデマンドで転送することができ、堅牢で効果的な分散生涯学習をもたらすことである。
動的エージェント番号と接続性を備えた完全な分散と非同期のシナリオを想定しています。
オンデマンド通信プロトコルにより、エージェントは特定のマスクを転送し、各タスクに直面するときにポリシーに統合する。
実験により,オンデマンドマスク通信は,DD-PPO,IMPALA,PPO+EWCなどの分散RLベースラインに対して,分散寿命強化学習を効果的に実施し,生涯学習の便益を提供することを示す。
このシステムは接続ドロップに対して特に堅牢であり、知識交換による迅速な学習を示す。
関連論文リスト
- Enhancing Multiple Dimensions of Trustworthiness in LLMs via Sparse Activation Control [44.326363467045496]
大規模言語モデル(LLM)は、ヒューマンフィードバック(RLHF)からの強化学習において重要な研究領域となっている。
表現工学は、新しい、トレーニングなしのアプローチを提供する。
この手法は意味的特徴を利用してLLMの中間隠れ状態の表現を制御する。
正直さや安全性などの様々な意味内容を特異な意味的特徴に符号化することは困難である。
論文 参考訳(メタデータ) (2024-11-04T08:36:03Z) - Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models [79.28821338925947]
ドメインクラスのインクリメンタル学習は現実的だが、継続的な学習シナリオである。
これらの多様なタスクに対処するために、事前訓練されたビジョンランゲージモデル(VLM)を導入し、その強力な一般化性を実現する。
事前訓練されたVLMにエンコードされた知識は、新しいタスクに適応する際に妨げられ、固有のゼロショット能力を損なう。
既存の手法では、膨大なオーバーヘッドを必要とする余分なデータセットに知識蒸留でVLMをチューニングすることで、この問題に対処している。
我々は、事前学習した知識を保持できるDIKI(Distributed-Aware Interference-free Knowledge Integration)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-07T12:19:37Z) - Variational Offline Multi-agent Skill Discovery [43.869625428099425]
本稿では,サブグループレベルの抽象化と時間レベルの抽象化を同時に取得し,マルチエージェントスキルを形成するための2つの新しい自動エンコーダ方式を提案する。
提案手法はオフラインのマルチタスクデータに適用可能であり,検出したサブグループスキルは再トレーニングすることなく,関連するタスク間で伝達可能である。
論文 参考訳(メタデータ) (2024-05-26T00:24:46Z) - PEMT: Multi-Task Correlation Guided Mixture-of-Experts Enables Parameter-Efficient Transfer Learning [28.353530290015794]
マルチタスク変換学習に基づくパラメータ効率の高いファインチューニングフレームワークPEMTを提案する。
我々は17のデータセットにまたがる幅広いタスクについて実験を行う。
論文 参考訳(メタデータ) (2024-02-23T03:59:18Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Masked Autoencoders are Efficient Continual Federated Learners [20.856520787551453]
継続的な学習は、クライアント間で共有される表現の教師なしの学習に基礎を置くべきです。
分布推定のためのマスク付きオートエンコーダはこの設定に特に適している。
論文 参考訳(メタデータ) (2023-06-06T09:38:57Z) - Lifelong Reinforcement Learning with Modulating Masks [16.24639836636365]
生涯学習は、生物学的学習と同様、生涯を通じて継続的に漸進的に学習するAIシステムを作成することを目的としている。
これまでの試みでは、破滅的な忘れ、タスク間の干渉、過去の知識を活用できないといった問題に直面してきた。
マスクによる生涯強化学習は、生涯学習、より複雑なタスクを学習するための知識の構成、より効率的かつ高速な学習のための知識再利用への有望なアプローチであることを示す。
論文 参考訳(メタデータ) (2022-12-21T15:49:20Z) - Self-Supervised Graph Neural Network for Multi-Source Domain Adaptation [51.21190751266442]
ドメイン適応(DA)は、テストデータがトレーニングデータの同じ分布に完全に従わない場合に、シナリオに取り組む。
大規模未ラベルサンプルから学習することで、自己教師型学習がディープラーニングの新しいトレンドとなっている。
我々は,より効果的なタスク間情報交換と知識共有を実現するために,新しい textbfSelf-textbf Supervised textbfGraph Neural Network (SSG) を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:56Z) - Modular Adaptive Policy Selection for Multi-Task Imitation Learning
through Task Division [60.232542918414985]
マルチタスク学習は、しばしば負の伝達に悩まされ、タスク固有の情報を共有する。
これは、プロトポリケーションをモジュールとして使用して、タスクを共有可能な単純なサブ振る舞いに分割する。
また、タスクを共有サブ行動とタスク固有のサブ行動の両方に自律的に分割する能力を示す。
論文 参考訳(メタデータ) (2022-03-28T15:53:17Z) - Fast and Slow Learning of Recurrent Independent Mechanisms [80.38910637873066]
本稿では,エージェントが必要とする知識の断片と報酬関数が定常的であり,タスク間で再利用可能なトレーニングフレームワークを提案する。
注意機構は、どのモジュールを現在のタスクに適応できるかを動的に選択する。
提案方式のモジュール的側面のメタラーニングは,強化学習装置の高速化に大きく寄与することがわかった。
論文 参考訳(メタデータ) (2021-05-18T17:50:32Z) - Transfer Heterogeneous Knowledge Among Peer-to-Peer Teammates: A Model
Distillation Approach [55.83558520598304]
本研究は, モデル蒸留により, 複数の学生間で経験と伝達値関数を再利用する新しい手法を提案する。
また、異種知識を活用するための効率的な通信プロトコルの設計方法について述べる。
提案するフレームワークである学習・指導カテゴリー強化は,学習の進捗を安定化・加速する上で有望な性能を示す。
論文 参考訳(メタデータ) (2020-02-06T11:31:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。