論文の概要: Contrastive Modules with Temporal Attention for Multi-Task Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2311.01075v1
- Date: Thu, 2 Nov 2023 08:41:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 14:16:13.953130
- Title: Contrastive Modules with Temporal Attention for Multi-Task Reinforcement
Learning
- Title(参考訳): 時間的注意を伴うマルチタスク強化学習用コントラストモジュール
- Authors: Siming Lan, Rui Zhang, Qi Yi, Jiaming Guo, Shaohui Peng, Yunkai Gao,
Fan Wu, Ruizhi Chen, Zidong Du, Xing Hu, Xishan Zhang, Ling Li, Yunji Chen
- Abstract要約: マルチタスク強化学習のためのCMTA法を用いたコントラストモジュールを提案する。
CMTAは、互いに異なるモジュールを対照的に学習し、共有モジュールをタスクレベルよりも細かい粒度で組み合わせることによって制約する。
実験の結果,CMTAは各タスクを個別に学習し,大幅な性能向上を実現していることがわかった。
- 参考スコア(独自算出の注目度): 29.14234496784581
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In the field of multi-task reinforcement learning, the modular principle,
which involves specializing functionalities into different modules and
combining them appropriately, has been widely adopted as a promising approach
to prevent the negative transfer problem that performance degradation due to
conflicts between tasks. However, most of the existing multi-task RL methods
only combine shared modules at the task level, ignoring that there may be
conflicts within the task. In addition, these methods do not take into account
that without constraints, some modules may learn similar functions, resulting
in restricting the model's expressiveness and generalization capability of
modular methods. In this paper, we propose the Contrastive Modules with
Temporal Attention(CMTA) method to address these limitations. CMTA constrains
the modules to be different from each other by contrastive learning and
combining shared modules at a finer granularity than the task level with
temporal attention, alleviating the negative transfer within the task and
improving the generalization ability and the performance for multi-task RL. We
conducted the experiment on Meta-World, a multi-task RL benchmark containing
various robotics manipulation tasks. Experimental results show that CMTA
outperforms learning each task individually for the first time and achieves
substantial performance improvements over the baselines.
- Abstract(参考訳): マルチタスク強化学習の分野では,機能を異なるモジュールに特殊化し,それらを適切に組み合わせることを含むモジュラー原則が,タスク間の競合によるパフォーマンス低下という負の伝達問題を防止するための有望なアプローチとして広く採用されている。
しかし、既存のマルチタスクRLメソッドのほとんどはタスクレベルでのみ共有モジュールを結合しており、タスク内に競合がある可能性があることを無視している。
さらに、これらの手法は制約がなければ、いくつかのモジュールは同様の関数を学ぶことができ、結果としてモジュラーメソッドの表現性や一般化能力を制限する。
本稿では,これらの制約に対処するContrastive Modules with Temporal Attention (CMTA)法を提案する。
cmtaは、対照的な学習と、時間的注意を伴うタスクレベルよりも細かい粒度で共有モジュールを結合し、タスク内の負の転送を緩和し、マルチタスクrlの一般化能力と性能を向上させることで、モジュールを互いに異なるものに制限する。
各種ロボット操作タスクを含むマルチタスクRLベンチマークであるMeta-Worldの実験を行った。
実験の結果,CMTAは各タスクを個別に学習し,ベースラインよりも大幅な性能向上を実現した。
関連論文リスト
- Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。
マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。
WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T07:16:31Z) - Mixture-of-LoRAs: An Efficient Multitask Tuning for Large Language
Models [7.966452497550907]
大規模言語モデル(LLM)を用いたマルチタスク学習のためのMixture-of-LoRA(MoA)アーキテクチャを提案する。
複数のドメイン固有のLoRAモジュールは、Mixture-of-Experts(MoE)で観察される専門家設計原則と一致させることができる。
各LoRAモデルは、新しいドメインに反復的に適応することができ、素早くドメイン固有の適応を可能にする。
論文 参考訳(メタデータ) (2024-03-06T03:33:48Z) - Not All Tasks Are Equally Difficult: Multi-Task Deep Reinforcement
Learning with Dynamic Depth Routing [26.44273671379482]
マルチタスク強化学習は、一つのポリシーで複数のタスクをこなす。
この研究は動的深度ルーティング(D2R)フレームワークを示し、特定の中間モジュールの戦略的スキップを学習し、各タスクに対して異なる数のモジュールを柔軟に選択する。
さらに,教師なしタスクの経路探索を継続して促進する自動経路分散機構を設計し,マスタ付きタスクの経路を乱すことなく提案する。
論文 参考訳(メタデータ) (2023-12-22T06:51:30Z) - Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:24:54Z) - Leveraging convergence behavior to balance conflicting tasks in
multi-task learning [3.6212652499950138]
マルチタスク学習は、パフォーマンスの一般化を改善するために相関タスクを使用する。
タスクは互いに衝突することが多いため、複数のタスクの勾配をどのように組み合わせるべきかを定義するのは難しい。
バックプロパゲーション中の各タスクの重要度を調整する動的バイアスを生成するために,勾配の時間的挙動を考慮した手法を提案する。
論文 参考訳(メタデータ) (2022-04-14T01:52:34Z) - Modular Adaptive Policy Selection for Multi-Task Imitation Learning
through Task Division [60.232542918414985]
マルチタスク学習は、しばしば負の伝達に悩まされ、タスク固有の情報を共有する。
これは、プロトポリケーションをモジュールとして使用して、タスクを共有可能な単純なサブ振る舞いに分割する。
また、タスクを共有サブ行動とタスク固有のサブ行動の両方に自律的に分割する能力を示す。
論文 参考訳(メタデータ) (2022-03-28T15:53:17Z) - Modular Networks Prevent Catastrophic Interference in Model-Based
Multi-Task Reinforcement Learning [0.8883733362171032]
モデルベースのマルチタスク強化学習が、共有ポリシネットワークからモデルフリーメソッドが行うのと同様の方法で、共有ダイナミクスモデルから恩恵を受けるかどうかを検討する。
単一ダイナミクスモデルを用いて、タスクの混乱と性能低下の明確な証拠を見出す。
対策として、学習力学モデルの内部構造を個別のサブネットワークにトレーニングすることで、パフォーマンスを著しく向上させる。
論文 参考訳(メタデータ) (2021-11-15T12:31:31Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z) - Reparameterizing Convolutions for Incremental Multi-Task Learning
without Task Interference [75.95287293847697]
マルチタスクモデルを開発する際の2つの一般的な課題は、しばしば文献で見過ごされる。
まず、モデルを本質的に漸進的に可能にし、以前に学んだことを忘れずに新しいタスクから情報を継続的に取り入れる(インクリメンタルラーニング)。
第二に、タスク間の有害な相互作用を排除し、マルチタスク設定(タスク干渉)においてシングルタスクのパフォーマンスを著しく低下させることが示されている。
論文 参考訳(メタデータ) (2020-07-24T14:44:46Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。