論文の概要: Building a Subspace of Policies for Scalable Continual Learning
- arxiv url: http://arxiv.org/abs/2211.10445v1
- Date: Fri, 18 Nov 2022 14:59:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 18:10:31.907439
- Title: Building a Subspace of Policies for Scalable Continual Learning
- Title(参考訳): スケーラブルな継続的学習のためのサブスペースの構築
- Authors: Jean-Baptiste Gaya, Thang Doan, Lucas Caccia, Laure Soulier, Ludovic
Denoyer, Roberta Raileanu
- Abstract要約: 本稿では,一連のタスクで強化学習エージェントを訓練するためのポリシーのサブスペースを段階的に構築する新しいアプローチであるContinuous Subspace of Policies(CSP)を紹介する。
CSPは、Brax(ロコモーション)とContinuous World(操作)という2つの挑戦的なドメインから幅広いシナリオにおいて、多くの人気ベースラインを上回ります。
- 参考スコア(独自算出の注目度): 21.03369477853538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to continuously acquire new knowledge and skills is crucial for
autonomous agents. Existing methods are typically based on either fixed-size
models that struggle to learn a large number of diverse behaviors, or
growing-size models that scale poorly with the number of tasks. In this work,
we aim to strike a better balance between an agent's size and performance by
designing a method that grows adaptively depending on the task sequence. We
introduce Continual Subspace of Policies (CSP), a new approach that
incrementally builds a subspace of policies for training a reinforcement
learning agent on a sequence of tasks. The subspace's high expressivity allows
CSP to perform well for many different tasks while growing sublinearly with the
number of tasks. Our method does not suffer from forgetting and displays
positive transfer to new tasks. CSP outperforms a number of popular baselines
on a wide range of scenarios from two challenging domains, Brax (locomotion)
and Continual World (manipulation).
- Abstract(参考訳): 自律的なエージェントにとって、新しい知識とスキルを継続的に獲得する能力は重要です。
既存の手法は、多くの多様な振る舞いを学ぶのに苦労する固定サイズモデルか、タスク数でスケールの悪い拡張サイズモデルのいずれかに基づいています。
本研究では,タスクシーケンスに応じて適応的に成長する手法を設計することにより,エージェントのサイズと性能のバランスを改善することを目的とする。
強化学習エージェントを一連のタスクで訓練するためのポリシのサブスペースを漸進的に構築する新しいアプローチであるcontinual subspace of policy (csp)を導入する。
部分空間の高表現性により、cspは多くの異なるタスクでうまく動作でき、同時にタスクの数でサブリニアに成長できる。
提案手法は新しいタスクへのポジティブな転送を忘れることに苦しめられません。
CSPは、Brax(ロコモーション)とContinuous World(操作)という2つの挑戦的なドメインから幅広いシナリオにおいて、多くの人気ベースラインを上回ります。
関連論文リスト
- Hierarchical Continual Reinforcement Learning via Large Language Model [15.837883929274758]
Hi-Coreはハイレベルな知識の伝達を容易にするように設計されている。
大規模言語モデル(LLM)による高レベルポリシー定式化
Hi-Coreは様々なCRLタスクの処理の有効性を示しており、一般的なベースラインを上回っている。
論文 参考訳(メタデータ) (2024-01-25T03:06:51Z) - Scalarization for Multi-Task and Multi-Domain Learning at Scale [15.545810422759295]
複数の入力ドメインと/または出力タスクで単一のモデルをトレーニングすることで、複数のソースからの情報を統一されたバックボーンに圧縮することができる。
しかし、これらのネットワークの最適化は、異なるタスクやドメイン間の相違による課題である。
論文 参考訳(メタデータ) (2023-10-13T07:31:04Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment
Regularization [57.71118589124002]
継続的な学習は破滅的な忘れ込みという課題を克服しようと試み、そこでは新しいタスクを解くための学習が、モデルが以前に学習した情報を忘れる原因となる。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れ込みを抑える新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Self-Supervised Reinforcement Learning that Transfers using Random
Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。
我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文 参考訳(メタデータ) (2023-05-26T20:37:06Z) - Dense Network Expansion for Class Incremental Learning [61.00081795200547]
最先端のアプローチでは、ネットワーク拡張(NE)に基づいた動的アーキテクチャを使用し、タスクごとにタスクエキスパートを追加する。
精度とモデル複雑性のトレードオフを改善するために,新しい NE 手法である高密度ネットワーク拡張 (DNE) を提案する。
従来のSOTA法では、類似またはより小さなモデルスケールで、精度の点で4%のマージンで性能が向上した。
論文 参考訳(メタデータ) (2023-03-22T16:42:26Z) - SimCS: Simulation for Domain Incremental Online Continual Segmentation [60.18777113752866]
既存の継続学習アプローチは、主にクラス増分設定における画像分類に焦点を当てている。
シミュレーションデータを用いて連続学習を規則化するパラメータフリー手法であるSimCSを提案する。
論文 参考訳(メタデータ) (2022-11-29T14:17:33Z) - An Evolutionary Approach to Dynamic Introduction of Tasks in Large-scale
Multitask Learning Systems [4.675744559395732]
マルチタスク学習は、複数のタスクから学習できるモデルが知識伝達によってより良い品質と効率を達成すると仮定する。
最先端のMLモデルは、タスクごとに高いカスタマイズに依存し、タスクの数をスケールするのではなく、サイズとデータスケールを活用する。
本稿では,大規模マルチタスクモデルを生成でき,新しいタスクの動的かつ連続的な追加を支援する進化的手法を提案する。
論文 参考訳(メタデータ) (2022-05-25T13:10:47Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。