論文の概要: PaCo: Parameter-Compositional Multi-Task Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2210.11653v1
- Date: Fri, 21 Oct 2022 01:00:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 14:08:38.425584
- Title: PaCo: Parameter-Compositional Multi-Task Reinforcement Learning
- Title(参考訳): PaCo:パラメータ合成多タスク強化学習
- Authors: Lingfeng Sun, Haichao Zhang, Wei Xu, Masayoshi Tomizuka
- Abstract要約: これらの課題に対処するために,パラメータ合成アプローチ(PaCo)を導入する。
すべての単一タスクに対するポリシーはこの部分空間にあり、学習された集合と補間することで構成できる。
メタワールドベンチマークの最先端性能を実証し,提案手法の有効性を検証した。
- 参考スコア(独自算出の注目度): 44.43196786555784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The purpose of multi-task reinforcement learning (MTRL) is to train a single
policy that can be applied to a set of different tasks. Sharing parameters
allows us to take advantage of the similarities among tasks. However, the gaps
between contents and difficulties of different tasks bring us challenges on
both which tasks should share the parameters and what parameters should be
shared, as well as the optimization challenges due to parameter sharing. In
this work, we introduce a parameter-compositional approach (PaCo) as an attempt
to address these challenges. In this framework, a policy subspace represented
by a set of parameters is learned. Policies for all the single tasks lie in
this subspace and can be composed by interpolating with the learned set. It
allows not only flexible parameter sharing but also a natural way to improve
training. We demonstrate the state-of-the-art performance on Meta-World
benchmarks, verifying the effectiveness of the proposed approach.
- Abstract(参考訳): マルチタスク強化学習(MTRL)の目的は、一連の異なるタスクに適用可能な単一のポリシーを訓練することである。
パラメータを共有することで、タスク間の類似性を活用できます。
しかし、異なるタスクの内容と難易度の間のギャップは、どのタスクがパラメータを共有するべきか、どのパラメータを共有するべきか、そしてパラメータ共有による最適化の課題の両方に課題をもたらす。
本研究では,これらの課題に対処するためのパラメータ合成アプローチ(PaCo)を提案する。
このフレームワークでは、パラメータの集合で表されるポリシーサブスペースが学習される。
すべての単一タスクに対するポリシーはこの部分空間にあり、学習された集合と補間することで構成できる。
柔軟なパラメータ共有だけでなく、トレーニングを改善する自然な方法も可能にする。
メタワールドベンチマークの最先端性能を実証し,提案手法の有効性を検証する。
関連論文リスト
- Task-Aware Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [70.96345405979179]
オフラインマルチタスク強化学習(MTRL)の目的は、オンライン環境相互作用を必要とせず、多様なタスクに適用可能な統一されたポリシーを開発することである。
タスクの内容と複雑さの変化は、政策の定式化において重大な課題を引き起こします。
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
論文 参考訳(メタデータ) (2024-11-02T05:49:14Z) - HarmoDT: Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [72.25707314772254]
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
このフレームワークの上位レベルは、調和部分空間を規定するタスク固有のマスクの学習に特化しており、内部レベルは、統一されたポリシーの全体的なパフォーマンスを高めるためにパラメータの更新に重点を置いている。
論文 参考訳(メタデータ) (2024-05-28T11:41:41Z) - Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文 参考訳(メタデータ) (2024-02-01T08:58:57Z) - DynaShare: Task and Instance Conditioned Parameter Sharing for
Multi-Task Learning [11.955637263520492]
マルチタスク学習のための新しいパラメータ共有手法を提案する。
本稿では,タスクと入力インスタンスの両方に基づいて,ネットワークのどの部分をアクティブにするかを動的に決定する。
提案手法は,個別入力インスタンスの粗い層選択とゲーティングユニットのためのタスク固有のポリシーからなる階層的ゲーティングポリシーを学習する。
論文 参考訳(メタデータ) (2023-05-26T23:43:21Z) - Task Difficulty Aware Parameter Allocation & Regularization for Lifelong
Learning [20.177260510548535]
本稿では,その学習困難度に基づいてパラメータ割り当てと正規化から各タスクに適した戦略を適応的に選択するAllocation & Regularization (PAR)を提案する。
提案手法はスケーラビリティが高く,モデルの冗長性を著しく低減し,モデルの性能を向上する。
論文 参考訳(メタデータ) (2023-04-11T15:38:21Z) - Pareto Manifold Learning: Tackling multiple tasks via ensembles of
single-task models [50.33956216274694]
マルチタスク学習(MTL)では、タスクは、ソリューションへの最適化を導くのではなく、互いに達成したパフォーマンスを競い、制限することができる。
重み空間におけるアンサンブル手法であるTextitPareto Manifold Learningを提案する。
論文 参考訳(メタデータ) (2022-10-18T11:20:54Z) - Small Towers Make Big Differences [59.243296878666285]
マルチタスク学習は、複数の機械学習タスクを同時に解決することを目的としている。
マルチタスク学習問題に対する優れた解法は、Paretoの最適性に加えて一般化可能であるべきである。
本稿では,マルチタスクモデルのためのパラメータ下自己助詞の手法を提案し,両世界のベストを達成した。
論文 参考訳(メタデータ) (2020-08-13T10:45:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。