論文の概要: Solving Continual Offline RL through Selective Weights Activation on Aligned Spaces
- arxiv url: http://arxiv.org/abs/2410.15698v1
- Date: Mon, 21 Oct 2024 07:13:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:17:26.614696
- Title: Solving Continual Offline RL through Selective Weights Activation on Aligned Spaces
- Title(参考訳): 配向空間上の選択重み活性化による連続オフラインRLの解法
- Authors: Jifeng Hu, Sili Huang, Li Shen, Zhejian Yang, Shengchao Hu, Shisong Tang, Hechang Chen, Yi Chang, Dacheng Tao, Lichao Sun,
- Abstract要約: 連続オフライン強化学習(CORL)は拡散に基づく生涯学習システムにおいて顕著な能力を示した。
本稿では,Vector-Quantized Continual diffuser(VQ-CD)を提案する。
- 参考スコア(独自算出の注目度): 52.649077293256795
- License:
- Abstract: Continual offline reinforcement learning (CORL) has shown impressive ability in diffusion-based lifelong learning systems by modeling the joint distributions of trajectories. However, most research only focuses on limited continual task settings where the tasks have the same observation and action space, which deviates from the realistic demands of training agents in various environments. In view of this, we propose Vector-Quantized Continual Diffuser, named VQ-CD, to break the barrier of different spaces between various tasks. Specifically, our method contains two complementary sections, where the quantization spaces alignment provides a unified basis for the selective weights activation. In the quantized spaces alignment, we leverage vector quantization to align the different state and action spaces of various tasks, facilitating continual training in the same space. Then, we propose to leverage a unified diffusion model attached by the inverse dynamic model to master all tasks by selectively activating different weights according to the task-related sparse masks. Finally, we conduct extensive experiments on 15 continual learning (CL) tasks, including conventional CL task settings (identical state and action spaces) and general CL task settings (various state and action spaces). Compared with 16 baselines, our method reaches the SOTA performance.
- Abstract(参考訳): 連続的オフライン強化学習 (CORL) は, 軌道の連成分布をモデル化することにより, 拡散に基づく生涯学習システムにおいて顕著な能力を示した。
しかし、ほとんどの研究は、タスクが同じ観察空間と行動空間を持つ限られた連続的なタスク設定にのみ焦点を当てており、これは様々な環境における訓練エージェントの現実的な要求から逸脱している。
そこで本研究では,Vector-Quantized Continual Diffuser(VQ-CD)を提案する。
具体的には、量子化空間アライメントが選択重み活性化の統一基底となる2つの相補断面積を含む。
量子化された空間アライメントにおいて、ベクトル量子化を利用して様々なタスクの異なる状態と行動空間を整列させ、同じ空間における連続的なトレーニングを容易にする。
そこで本研究では,タスク関連スパースマスクに応じて,異なる重みを選択的に活性化することにより,逆動的モデルが付加した統一拡散モデルを用いて全てのタスクをマスターする手法を提案する。
最後に、従来のCLタスク設定(アイデンティティ状態とアクション空間)や一般的なCLタスク設定(さまざまな状態とアクション空間)を含む15の連続学習(CL)タスクについて広範な実験を行う。
16のベースラインと比較して,本手法はSOTA性能に到達した。
関連論文リスト
- Get Rid of Task Isolation: A Continuous Multi-task Spatio-Temporal Learning Framework [10.33844348594636]
我々は,都市の総合的知能を高めるために,連続マルチタスク時空間学習フレームワーク(CMuST)を提案することが不可欠であると主張する。
CMuSTは、都市時間学習を単一ドメインから協調マルチタスク学習に改革する。
マルチタスク時間学習のための3つの都市のベンチマークを作成し,CMuSTの優位性を実証的に実証した。
論文 参考訳(メタデータ) (2024-10-14T14:04:36Z) - Elastic Multi-Gradient Descent for Parallel Continual Learning [28.749215705746135]
動的マルチタスクシナリオにおける並列連続学習(PCL)のパラダイムについて検討する。
PCLは、学習の進捗が様々に異なる、特定されていないタスクのトレーニングによって、課題を提示する。
従来のタスクと新しいタスクのトレーニングのバランスをとるために,EMGDを用いて計算した勾配によって導かれるメモリ編集機構を提案する。
論文 参考訳(メタデータ) (2024-01-02T06:26:25Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Building a Subspace of Policies for Scalable Continual Learning [21.03369477853538]
本稿では,一連のタスクで強化学習エージェントを訓練するためのポリシーのサブスペースを段階的に構築する新しいアプローチであるContinuous Subspace of Policies(CSP)を紹介する。
CSPは、Brax(ロコモーション)とContinuous World(操作)という2つの挑戦的なドメインから幅広いシナリオにおいて、多くの人気ベースラインを上回ります。
論文 参考訳(メタデータ) (2022-11-18T14:59:42Z) - Curriculum Reinforcement Learning using Optimal Transport via Gradual
Domain Adaptation [46.103426976842336]
強化学習(CRL)は、簡単なタスクから始まり、徐々に難しいタスクへと学習する一連のタスクを作成することを目的としている。
本研究では、ソース(補助的)とターゲットタスク分布の間のカリキュラムとしてCRLをフレーミングするという考え方に焦点をあてる。
半教師付き学習における段階的ドメイン適応の洞察に触発されて、CRLのタスク分散シフトを小さなシフトに分解することで、自然なカリキュラムを作成する。
論文 参考訳(メタデータ) (2022-10-18T22:33:33Z) - On Steering Multi-Annotations per Sample for Multi-Task Learning [79.98259057711044]
マルチタスク学習の研究はコミュニティから大きな注目を集めている。
目覚ましい進歩にもかかわらず、異なるタスクを同時に学習するという課題はまだ検討されていない。
従来の研究は、異なるタスクから勾配を修正しようとするが、これらの手法はタスク間の関係の主観的な仮定を与え、修正された勾配はより正確でないかもしれない。
本稿では,タスク割り当てアプローチによってこの問題に対処する機構であるタスク割当(STA)を紹介し,各サンプルをランダムにタスクのサブセットに割り当てる。
さらなる進展のために、我々は全てのタスクを反復的に割り当てるためにInterleaved Task Allocation(ISTA)を提案する。
論文 参考訳(メタデータ) (2022-03-06T11:57:18Z) - Self-Taught Cross-Domain Few-Shot Learning with Weakly Supervised Object
Localization and Task-Decomposition [84.24343796075316]
本稿では,クロスドメインなFew-Shot学習のためのタスク拡張分解フレームワークを提案する。
提案した自己学習(ST)アプローチは,タスク指向距離空間を構築することで,非目標誘導の問題を軽減する。
CUB、カーズ、Places、Planae、CropDieases、EuroSAT、ISIC、ChestXの8つのドメインを含むクロスドメイン環境で実験を行う。
論文 参考訳(メタデータ) (2021-09-03T04:23:07Z) - Continual Learning in Low-rank Orthogonal Subspaces [86.36417214618575]
連続学習(CL)では、学習者は一連のタスクに直面して次々に到着し、学習経験が終わるとすべてのタスクを覚えることが目的である。
CLの以前の技術は、タスク間の干渉を減らすためにエピソードメモリ、パラメータ正規化、ネットワーク構造を使用していたが、最終的には、全てのアプローチが共同ベクトル空間で異なるタスクを学習する。
干渉を最小限に抑えるために互いに直交する異なる(低ランクな)ベクトル部分空間でタスクを学習することを提案する。
論文 参考訳(メタデータ) (2020-10-22T12:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。