論文の概要: Lifelong Reinforcement Learning with Modulating Masks
- arxiv url: http://arxiv.org/abs/2212.11110v1
- Date: Wed, 21 Dec 2022 15:49:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 13:35:12.415532
- Title: Lifelong Reinforcement Learning with Modulating Masks
- Title(参考訳): 変調マスクを用いた生涯強化学習
- Authors: Eseoghene Ben-Iwhiwhu, Saptarshi Nath, Praveen K. Pilly, Soheil
Kolouri, Andrea Soltoggio
- Abstract要約: 生涯学習は、生物学的学習と同様、生涯を通じて継続的に漸進的に学習するAIシステムを作成することを目的としている。
これまでの試みでは、破滅的な忘れ、タスク間の干渉、過去の知識を活用できないといった問題に直面してきた。
最近、分類のために開発された変調マスクは、このような大きなタスクのバリエーションを扱うのに特に適している。
- 参考スコア(独自算出の注目度): 16.24639836636365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lifelong learning aims to create AI systems that continuously and
incrementally learn during a lifetime, similar to biological learning. Attempts
so far have met problems, including catastrophic forgetting, interference among
tasks, and the inability to exploit previous knowledge. While considerable
research has focused on learning multiple input distributions, typically in
classification, lifelong reinforcement learning (LRL) must also deal with
variations in the state and transition distributions, and in the reward
functions. Modulating masks, recently developed for classification, are
particularly suitable to deal with such a large spectrum of task variations. In
this paper, we adapted modulating masks to work with deep LRL, specifically PPO
and IMPALA agents. The comparison with LRL baselines in both discrete and
continuous RL tasks shows competitive performance. We further investigated the
use of a linear combination of previously learned masks to exploit previous
knowledge when learning new tasks: not only is learning faster, the algorithm
solves tasks that we could not otherwise solve from scratch due to extremely
sparse rewards. The results suggest that RL with modulating masks is a
promising approach to lifelong learning, to the composition of knowledge to
learn increasingly complex tasks, and to knowledge reuse for efficient and
faster learning.
- Abstract(参考訳): 生涯学習は、生物学的学習と同様、生涯を通じて継続的に漸進的に学習するAIシステムを作成することを目的としている。
これまでの試みでは、破滅的な忘れ、タスク間の干渉、過去の知識を活用できないといった問題に直面してきた。
多くの研究は複数の入力分布(典型的には分類において)の学習に重点を置いているが、生涯強化学習(LRL)は状態分布や遷移分布の変動や報酬関数にも対処しなければならない。
分類のために最近開発された変調マスクは、このような大きなタスクのバリエーションを扱うのに特に適しています。
本稿では,変調マスクを深部LRL,特にPPOおよびIMPALAエージェントに適応させた。
離散RLタスクと連続RLタスクのLRLベースラインとの比較は、競合性能を示している。
我々はさらに,新しいタスクを学習するときの既往の知識を活用するために,以前に学習したマスクを線形に組み合わせて使用する方法についても検討した。
その結果, マスクを用いたRLは, 生涯学習, より複雑なタスクを学習するための知識構成, 効率的かつ迅速な学習のための知識再利用への有望なアプローチであることが示唆された。
関連論文リスト
- Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。
実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文 参考訳(メタデータ) (2024-11-18T08:20:21Z) - Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models [79.28821338925947]
ドメインクラスのインクリメンタル学習は現実的だが、継続的な学習シナリオである。
これらの多様なタスクに対処するために、事前訓練されたビジョンランゲージモデル(VLM)を導入し、その強力な一般化性を実現する。
事前訓練されたVLMにエンコードされた知識は、新しいタスクに適応する際に妨げられ、固有のゼロショット能力を損なう。
既存の手法では、膨大なオーバーヘッドを必要とする余分なデータセットに知識蒸留でVLMをチューニングすることで、この問題に対処している。
我々は、事前学習した知識を保持できるDIKI(Distributed-Aware Interference-free Knowledge Integration)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-07T12:19:37Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Lifelong Sequence Generation with Dynamic Module Expansion and
Adaptation [39.886149621730915]
寿命シーケンス生成(LSG)は、連続した世代タスクに基づいてモデルを継続的に訓練し、常に新しい世代パターンを学ぶことを目的としている。
人間の学習パラダイムにヒントを得て,動的モジュール拡張適応(DMEA)を提案する。
DMEAにより、タスク相関に基づいて新しい知識を取得するためのアーキテクチャを動的に決定し、最も類似したタスクを選択して、新しいタスクへの適応を容易にすることができる。
論文 参考訳(メタデータ) (2023-10-15T16:51:11Z) - Sharing Lifelong Reinforcement Learning Knowledge via Modulating Masks [14.893594209310875]
生涯学習エージェントは、生涯にわたって複数のタスクを逐次学習することを目的としている。
特定のパラメータ分離アプローチである変調マスクは、最近、教師付き学習と強化学習の両方において有望であることが示されている。
マスクを変調するパラメータ分離機構は,生涯学習者の分散システムにおけるエージェント間の知識交換に特に適していることを示す。
論文 参考訳(メタデータ) (2023-05-18T14:19:19Z) - Hierarchically Structured Task-Agnostic Continual Learning [0.0]
本研究では,連続学習のタスク非依存的な視点を取り入れ,階層的情報理論の最適性原理を考案する。
我々は,情報処理経路の集合を作成することで,忘れを緩和する,Mixture-of-Variational-Experts層と呼ばれるニューラルネットワーク層を提案する。
既存の連続学習アルゴリズムのようにタスク固有の知識を必要としない。
論文 参考訳(メタデータ) (2022-11-14T19:53:15Z) - Fully Online Meta-Learning Without Task Boundaries [80.09124768759564]
この性質のオンライン問題にメタラーニングを適用する方法について検討する。
タスク境界に関する基礎的な真理知識を必要としない完全オンラインメタラーニング(FOML)アルゴリズムを提案する。
実験の結果,FOMLは最先端のオンライン学習手法よりも高速に新しいタスクを学習できることがわかった。
論文 参考訳(メタデータ) (2022-02-01T07:51:24Z) - Fractional Transfer Learning for Deep Model-Based Reinforcement Learning [0.966840768820136]
強化学習(Reinforcement Learning, RL)は、RLエージェントが複雑なタスクを実行することを学ぶために大量のデータを必要とすることで知られている。
モデルベースRLの最近の進歩により、エージェントはずっとデータ効率が良い。
簡単な代替手法として、分数変換学習を提案する。
論文 参考訳(メタデータ) (2021-08-14T12:44:42Z) - KnowRU: Knowledge Reusing via Knowledge Distillation in Multi-agent
Reinforcement Learning [16.167201058368303]
深層強化学習(RL)アルゴリズムはマルチエージェント領域において劇的に進歩している。
この問題を解決するには、歴史的経験の効率的な活用が不可欠です。
知識再利用のための「KnowRU」という手法を提案する。
論文 参考訳(メタデータ) (2021-03-27T12:38:01Z) - Knowledge Transfer in Multi-Task Deep Reinforcement Learning for
Continuous Control [65.00425082663146]
連続制御のための知識伝達に基づく多タスク深層強化学習フレームワーク(KTM-DRL)を提案する。
KTM-DRLでは、マルチタスクエージェントがまずオフラインの知識伝達アルゴリズムを利用して、タスク固有の教師の経験から制御ポリシーを素早く学習する。
実験結果は,KTM-DRLとその知識伝達とオンライン学習アルゴリズムの有効性を正当化するとともに,最先端技術よりも大きなマージンによる優位性を示した。
論文 参考訳(メタデータ) (2020-10-15T03:26:47Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。