論文の概要: Building a Subspace of Policies for Scalable Continual Learning
- arxiv url: http://arxiv.org/abs/2211.10445v1
- Date: Fri, 18 Nov 2022 14:59:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 18:10:31.907439
- Title: Building a Subspace of Policies for Scalable Continual Learning
- Title(参考訳): スケーラブルな継続的学習のためのサブスペースの構築
- Authors: Jean-Baptiste Gaya, Thang Doan, Lucas Caccia, Laure Soulier, Ludovic
Denoyer, Roberta Raileanu
- Abstract要約: 本稿では,一連のタスクで強化学習エージェントを訓練するためのポリシーのサブスペースを段階的に構築する新しいアプローチであるContinuous Subspace of Policies(CSP)を紹介する。
CSPは、Brax(ロコモーション)とContinuous World(操作)という2つの挑戦的なドメインから幅広いシナリオにおいて、多くの人気ベースラインを上回ります。
- 参考スコア(独自算出の注目度): 21.03369477853538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to continuously acquire new knowledge and skills is crucial for
autonomous agents. Existing methods are typically based on either fixed-size
models that struggle to learn a large number of diverse behaviors, or
growing-size models that scale poorly with the number of tasks. In this work,
we aim to strike a better balance between an agent's size and performance by
designing a method that grows adaptively depending on the task sequence. We
introduce Continual Subspace of Policies (CSP), a new approach that
incrementally builds a subspace of policies for training a reinforcement
learning agent on a sequence of tasks. The subspace's high expressivity allows
CSP to perform well for many different tasks while growing sublinearly with the
number of tasks. Our method does not suffer from forgetting and displays
positive transfer to new tasks. CSP outperforms a number of popular baselines
on a wide range of scenarios from two challenging domains, Brax (locomotion)
and Continual World (manipulation).
- Abstract(参考訳): 自律的なエージェントにとって、新しい知識とスキルを継続的に獲得する能力は重要です。
既存の手法は、多くの多様な振る舞いを学ぶのに苦労する固定サイズモデルか、タスク数でスケールの悪い拡張サイズモデルのいずれかに基づいています。
本研究では,タスクシーケンスに応じて適応的に成長する手法を設計することにより,エージェントのサイズと性能のバランスを改善することを目的とする。
強化学習エージェントを一連のタスクで訓練するためのポリシのサブスペースを漸進的に構築する新しいアプローチであるcontinual subspace of policy (csp)を導入する。
部分空間の高表現性により、cspは多くの異なるタスクでうまく動作でき、同時にタスクの数でサブリニアに成長できる。
提案手法は新しいタスクへのポジティブな転送を忘れることに苦しめられません。
CSPは、Brax(ロコモーション)とContinuous World(操作)という2つの挑戦的なドメインから幅広いシナリオにおいて、多くの人気ベースラインを上回ります。
関連論文リスト
- Hierarchical Orchestra of Policies [1.6574413179773757]
HOPは、現在の観察と、成功したタスクでこれまで遭遇した観察との類似度基準に基づいて、ポリシーの階層を動的に形成する。
HOPはタスクラベリングを必要としないため、タスク間のバウンダリがあいまいな環境でのロバストな適応を可能にする。
本実験は,複数のタスクにまたがってプロシージャ的に生成した環境下で実施し,HOPがタスク間の知識を維持する上で,ベースライン法を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2024-11-05T11:13:09Z) - LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging [80.17238673443127]
LiNeSは、微調整タスク性能を向上しつつ、事前訓練された一般化を維持するために設計されたポストトレーニング編集技術である。
LiNeSは、視覚と自然言語処理のさまざまなベンチマークにおいて、シングルタスクとマルチタスクの両方で大幅に改善されている。
論文 参考訳(メタデータ) (2024-10-22T16:26:05Z) - Solving Continual Offline RL through Selective Weights Activation on Aligned Spaces [52.649077293256795]
連続オフライン強化学習(CORL)は拡散に基づく生涯学習システムにおいて顕著な能力を示した。
本稿では,Vector-Quantized Continual diffuser(VQ-CD)を提案する。
論文 参考訳(メタデータ) (2024-10-21T07:13:45Z) - Get Rid of Task Isolation: A Continuous Multi-task Spatio-Temporal Learning Framework [10.33844348594636]
我々は,都市の総合的知能を高めるために,連続マルチタスク時空間学習フレームワーク(CMuST)を提案することが不可欠であると主張する。
CMuSTは、都市時間学習を単一ドメインから協調マルチタスク学習に改革する。
マルチタスク時間学習のための3つの都市のベンチマークを作成し,CMuSTの優位性を実証的に実証した。
論文 参考訳(メタデータ) (2024-10-14T14:04:36Z) - Continual Diffuser (CoD): Mastering Continual Offline Reinforcement Learning with Experience Rehearsal [54.93261535899478]
強化学習のロボット制御のような現実世界の応用では、タスクが変化し、新しいタスクが順次発生する。
この状況は、タスクの変更に適応し、獲得した知識を保持するエージェントを訓練する上で、可塑性-安定トレードオフという新たな課題を生じさせる。
本研究では,連続拡散器(Continuous diffuser,CoD)と呼ばれるリハーサルに基づく連続拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-09-04T08:21:47Z) - Self-Supervised Reinforcement Learning that Transfers using Random
Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。
我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文 参考訳(メタデータ) (2023-05-26T20:37:06Z) - SimCS: Simulation for Domain Incremental Online Continual Segmentation [60.18777113752866]
既存の継続学習アプローチは、主にクラス増分設定における画像分類に焦点を当てている。
シミュレーションデータを用いて連続学習を規則化するパラメータフリー手法であるSimCSを提案する。
論文 参考訳(メタデータ) (2022-11-29T14:17:33Z) - An Evolutionary Approach to Dynamic Introduction of Tasks in Large-scale
Multitask Learning Systems [4.675744559395732]
マルチタスク学習は、複数のタスクから学習できるモデルが知識伝達によってより良い品質と効率を達成すると仮定する。
最先端のMLモデルは、タスクごとに高いカスタマイズに依存し、タスクの数をスケールするのではなく、サイズとデータスケールを活用する。
本稿では,大規模マルチタスクモデルを生成でき,新しいタスクの動的かつ連続的な追加を支援する進化的手法を提案する。
論文 参考訳(メタデータ) (2022-05-25T13:10:47Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。