Fugu-MT 論文翻訳(概要): Building a Subspace of Policies for Scalable Continual Learning

論文の概要: Building a Subspace of Policies for Scalable Continual Learning

arxiv url: http://arxiv.org/abs/2211.10445v1
Date: Fri, 18 Nov 2022 14:59:42 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-22 18:10:31.907439
Title: Building a Subspace of Policies for Scalable Continual Learning
Title（参考訳）: スケーラブルな継続的学習のためのサブスペースの構築
Authors: Jean-Baptiste Gaya, Thang Doan, Lucas Caccia, Laure Soulier, Ludovic Denoyer, Roberta Raileanu
Abstract要約: 本稿では,一連のタスクで強化学習エージェントを訓練するためのポリシーのサブスペースを段階的に構築する新しいアプローチであるContinuous Subspace of Policies(CSP)を紹介する。 CSPは、Brax(ロコモーション)とContinuous World(操作)という2つの挑戦的なドメインから幅広いシナリオにおいて、多くの人気ベースラインを上回ります。
参考スコア（独自算出の注目度）: 21.03369477853538
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The ability to continuously acquire new knowledge and skills is crucial for autonomous agents. Existing methods are typically based on either fixed-size models that struggle to learn a large number of diverse behaviors, or growing-size models that scale poorly with the number of tasks. In this work, we aim to strike a better balance between an agent's size and performance by designing a method that grows adaptively depending on the task sequence. We introduce Continual Subspace of Policies (CSP), a new approach that incrementally builds a subspace of policies for training a reinforcement learning agent on a sequence of tasks. The subspace's high expressivity allows CSP to perform well for many different tasks while growing sublinearly with the number of tasks. Our method does not suffer from forgetting and displays positive transfer to new tasks. CSP outperforms a number of popular baselines on a wide range of scenarios from two challenging domains, Brax (locomotion) and Continual World (manipulation).
Abstract（参考訳）: 自律的なエージェントにとって、新しい知識とスキルを継続的に獲得する能力は重要です。既存の手法は、多くの多様な振る舞いを学ぶのに苦労する固定サイズモデルか、タスク数でスケールの悪い拡張サイズモデルのいずれかに基づいています。本研究では,タスクシーケンスに応じて適応的に成長する手法を設計することにより,エージェントのサイズと性能のバランスを改善することを目的とする。強化学習エージェントを一連のタスクで訓練するためのポリシのサブスペースを漸進的に構築する新しいアプローチであるcontinual subspace of policy (csp)を導入する。部分空間の高表現性により、cspは多くの異なるタスクでうまく動作でき、同時にタスクの数でサブリニアに成長できる。提案手法は新しいタスクへのポジティブな転送を忘れることに苦しめられません。 CSPは、Brax(ロコモーション)とContinuous World(操作)という2つの挑戦的なドメインから幅広いシナリオにおいて、多くの人気ベースラインを上回ります。

関連論文リスト

Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners [60.75160178669076]
オンライン強化学習におけるタスク干渉の問題に対して,クロスエントロピーを用いて訓練し,学習可能なタスク埋め込みを条件とした高容量値モデルの使用が課題であることを示す。 280以上のユニークなタスクを持つ7つのマルチタスクベンチマークで、高い自由度ヒューマノイド制御と離散視覚ベースのRLにまたがるアプローチを検証した。
論文参考訳（メタデータ） (2025-05-29T06:41:45Z)
Continuous Subspace Optimization for Continual Learning [24.597922531045846]
継続的な学習は、先行知識を維持しながら、連続的に複数のタスクを学習することを目的としている。連続学習のための連続部分空間最適化(CoSO)を提案する。 CoSOは、特に長いタスクシーケンスを持つ挑戦的なシナリオにおいて、最先端のメソッドを著しく上回る。
論文参考訳（メタデータ） (2025-05-17T03:53:21Z)
FM-LoRA: Factorized Low-Rank Meta-Prompting for Continual Learning [19.068489119024388]
連続学習は、シーケンシャルなタスクに事前訓練されたモデルを活用するための有望なアプローチとして登場した。既存のCLメソッドの多くは、ローランド適応(LoRA)アダプタやプロンプトなどの学習構造を漸進的に格納する。動的階数セレクタ(DRS)と動的メタプロンプティング(DMP)の両方を統合した,新規で効率的な低ランク適応手法FM-LoRAを提案する。
論文参考訳（メタデータ） (2025-04-09T19:36:18Z)
Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文参考訳（メタデータ） (2024-11-18T08:20:21Z)
Hierarchical Orchestra of Policies [1.6574413179773757]
HOPは、現在の観察と、成功したタスクでこれまで遭遇した観察との類似度基準に基づいて、ポリシーの階層を動的に形成する。 HOPはタスクラベリングを必要としないため、タスク間のバウンダリがあいまいな環境でのロバストな適応を可能にする。本実験は,複数のタスクにまたがってプロシージャ的に生成した環境下で実施し,HOPがタスク間の知識を維持する上で,ベースライン法を著しく上回っていることを示す。
論文参考訳（メタデータ） (2024-11-05T11:13:09Z)
LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging [80.17238673443127]
LiNeSは、微調整タスク性能を向上しつつ、事前訓練された一般化を維持するために設計されたポストトレーニング編集技術である。 LiNeSは、視覚と自然言語処理のさまざまなベンチマークにおいて、シングルタスクとマルチタスクの両方で大幅に改善されている。
論文参考訳（メタデータ） (2024-10-22T16:26:05Z)
Solving Continual Offline RL through Selective Weights Activation on Aligned Spaces [52.649077293256795]
連続オフライン強化学習(CORL)は拡散に基づく生涯学習システムにおいて顕著な能力を示した。本稿では,Vector-Quantized Continual diffuser(VQ-CD)を提案する。
論文参考訳（メタデータ） (2024-10-21T07:13:45Z)
Get Rid of Task Isolation: A Continuous Multi-task Spatio-Temporal Learning Framework [10.33844348594636]
我々は,都市の総合的知能を高めるために,連続マルチタスク時空間学習フレームワーク(CMuST)を提案することが不可欠であると主張する。 CMuSTは、都市時間学習を単一ドメインから協調マルチタスク学習に改革する。マルチタスク時間学習のための3つの都市のベンチマークを作成し,CMuSTの優位性を実証的に実証した。
論文参考訳（メタデータ） (2024-10-14T14:04:36Z)
Continual Diffuser (CoD): Mastering Continual Offline Reinforcement Learning with Experience Rehearsal [54.93261535899478]
強化学習のロボット制御のような現実世界の応用では、タスクが変化し、新しいタスクが順次発生する。この状況は、タスクの変更に適応し、獲得した知識を保持するエージェントを訓練する上で、可塑性-安定トレードオフという新たな課題を生じさせる。本研究では,連続拡散器(Continuous diffuser,CoD)と呼ばれるリハーサルに基づく連続拡散モデルを提案する。
論文参考訳（メタデータ） (2024-09-04T08:21:47Z)
Self-Supervised Reinforcement Learning that Transfers using Random Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文参考訳（メタデータ） (2023-05-26T20:37:06Z)
SimCS: Simulation for Domain Incremental Online Continual Segmentation [60.18777113752866]
既存の継続学習アプローチは、主にクラス増分設定における画像分類に焦点を当てている。シミュレーションデータを用いて連続学習を規則化するパラメータフリー手法であるSimCSを提案する。
論文参考訳（メタデータ） (2022-11-29T14:17:33Z)
An Evolutionary Approach to Dynamic Introduction of Tasks in Large-scale Multitask Learning Systems [4.675744559395732]
マルチタスク学習は、複数のタスクから学習できるモデルが知識伝達によってより良い品質と効率を達成すると仮定する。最先端のMLモデルは、タスクごとに高いカスタマイズに依存し、タスクの数をスケールするのではなく、サイズとデータスケールを活用する。本稿では,大規模マルチタスクモデルを生成でき,新しいタスクの動的かつ連続的な追加を支援する進化的手法を提案する。
論文参考訳（メタデータ） (2022-05-25T13:10:47Z)
Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文参考訳（メタデータ） (2022-03-30T23:16:07Z)
Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文参考訳（メタデータ） (2020-05-27T01:10:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。