論文の概要: Finite-Time Analysis for Conflict-Avoidant Multi-Task Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.16077v2
- Date: Tue, 11 Jun 2024 03:38:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 21:43:40.178284
- Title: Finite-Time Analysis for Conflict-Avoidant Multi-Task Reinforcement Learning
- Title(参考訳): 衝突回避型マルチタスク強化学習のための有限時間解析
- Authors: Yudan Wang, Peiyao Xiao, Hao Ban, Kaiyi Ji, Shaofeng Zou,
- Abstract要約: 本稿では,CA と FC という2つのサブプロデューサの選択肢に基づいて,新しい動的重み付けマルチタスク・アクター・クリティック・アルゴリズム (MTAC) を開発した。
MTAC-CAは、タスク間の最小値改善を最大化する競合回避(CA)更新方向と、MTAC-FCターゲットをはるかに高速な収束速度で見つけることを目的としている。
MT10における実験により,既存のMTRL法よりもアルゴリズムの性能が向上したことを示す。
- 参考スコア(独自算出の注目度): 21.288881065839007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-task reinforcement learning (MTRL) has shown great promise in many real-world applications. Existing MTRL algorithms often aim to learn a policy that optimizes individual objective functions simultaneously with a given prior preference (or weights) on different tasks. However, these methods often suffer from the issue of \textit{gradient conflict} such that the tasks with larger gradients dominate the update direction, resulting in a performance degeneration on other tasks. In this paper, we develop a novel dynamic weighting multi-task actor-critic algorithm (MTAC) under two options of sub-procedures named as CA and FC in task weight updates. MTAC-CA aims to find a conflict-avoidant (CA) update direction that maximizes the minimum value improvement among tasks, and MTAC-FC targets at a much faster convergence rate. We provide a comprehensive finite-time convergence analysis for both algorithms. We show that MTAC-CA can find a $\epsilon+\epsilon_{\text{app}}$-accurate Pareto stationary policy using $\mathcal{O}({\epsilon^{-5}})$ samples, while ensuring a small $\epsilon+\sqrt{\epsilon_{\text{app}}}$-level CA distance (defined as the distance to the CA direction), where $\epsilon_{\text{app}}$ is the function approximation error. The analysis also shows that MTAC-FC improves the sample complexity to $\mathcal{O}(\epsilon^{-3})$, but with a constant-level CA distance. Our experiments on MT10 demonstrate the improved performance of our algorithms over existing MTRL methods with fixed preference.
- Abstract(参考訳): MTRL (Multi-task reinforcement learning) は,多くの実世界の応用において大きな期待を抱いている。
既存のMTRLアルゴリズムは、個々の目的関数と与えられたタスクの優先順位(または重み)を同時に最適化するポリシーを学ぶことを目的としている。
しかしながら、これらのメソッドは、大きな勾配を持つタスクが更新方向を支配し、結果として他のタスクのパフォーマンスが低下する、という、‘textit{gradient conflict’という問題に悩まされることが多い。
本稿では,タスク重み更新におけるCAとFCというサブプロデューサの2つの選択肢に基づいて,新しい動的重み付けマルチタスク・アクター・クリティック・アルゴリズム(MTAC)を開発する。
MTAC-CAは、タスク間の最小値改善を最大化し、MTAC-FCターゲットをはるかに高速な収束速度で、コンフリクト回避(CA)更新方向を見つけることを目的としている。
両アルゴリズムを包括的に有限時間収束解析する。
MTAC-CAは$\epsilon+\epsilon_{\text{app}}$-accurate Pareto stationary policy using $\mathcal{O}({\epsilon^{-5}})$ sample, and ensure a small $\epsilon+\sqrt{\epsilon_{\text{app}}}$-level CA distance (定義されているCA方向の距離)。
MTAC-FCはサンプルの複雑さを$\mathcal{O}(\epsilon^{-3})$に改善するが、一定レベルのCA距離を持つ。
MT10における実験により,既存のMTRL法よりもアルゴリズムの性能が向上したことを示す。
関連論文リスト
- On the Convergence of Multi-objective Optimization under Generalized Smoothness [27.87166415148172]
我々はより一般的で現実的な$ell$-smooth損失関数のクラスを研究し、$ell$は一般の非減少関数ノルムである。
我々は、$ell$-smooth Generalized Multi-MOO GradientGradと、その変種である Generalized Smooth Multi-MOO descentの2つの新しいアルゴリズムを開発した。
私たちのアルゴリズムは、より厳密な$mathcalO(epsilon-2)$を各イテレーションで、より多くのサンプルを使って保証します。
論文 参考訳(メタデータ) (2024-05-29T18:36:59Z) - Robust Multi-Task Learning with Excess Risks [24.695243608197835]
マルチタスク学習(MTL)は、全てのタスク損失の凸結合を最適化することにより、複数のタスクのジョイントモデルを学ぶことを検討する。
既存の方法は適応的な重み更新方式を用いており、各損失に基づいてタスク重みを動的に調整し、困難なタスクを優先順位付けする。
本稿では,過度リスクに基づくタスクバランス手法であるMulti-Task Learning with Excess Risks (ExcessMTL)を提案する。
論文 参考訳(メタデータ) (2024-02-03T03:46:14Z) - Distributed Extra-gradient with Optimal Complexity and Communication
Guarantees [60.571030754252824]
複数のプロセッサ/ワーカー/クライアントがローカルなデュアルベクトルにアクセス可能なマルチGPU設定において、モノトン変分不等式(VI)問題を考察する。
モノトーンVI問題に対するデファクトアルゴリズムであるExtra-gradientは、通信効率が良くないように設計されている。
そこで本稿では,VI の解法に適した非バイアスで適応的な圧縮手法である量子化一般化外部勾配 (Q-GenX) を提案する。
論文 参考訳(メタデータ) (2023-08-17T21:15:04Z) - FAMO: Fast Adaptive Multitask Optimization [48.59232177073481]
本稿では,動的重み付け手法であるFast Adaptive Multitask Optimization FAMOを導入する。
この結果から,FAMOは最先端の勾配操作技術に匹敵する,あるいは優れた性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-06-06T15:39:54Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - Oracle-free Reinforcement Learning in Mean-Field Games along a Single
Sample Path [5.926203312586109]
平均フィールドゲーム(MFG)におけるオンライン強化学習の検討
汎用エージェントの単一サンプルパスを用いて平均場平衡(MFE)を近似するアルゴリズムを開発した。
多様なシナリオにおいて,サンドボックス学習アルゴリズムの有効性を実証的に実証した。
論文 参考訳(メタデータ) (2022-08-24T16:22:31Z) - Online Sub-Sampling for Reinforcement Learning with General Function
Approximation [111.01990889581243]
本稿では,RLアルゴリズムによって収集されたデータポイントの情報取得量を測定する,効率的なオンラインサブサンプリングフレームワークを確立する。
複雑性バウンド関数クラスを持つ値ベースのメソッドの場合、$proptooperatornamepolylog(K)$ timesに対してのみポリシーを更新する必要がある。
少なくとも$Omega(K)$倍のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決における最適化コールの数を劇的に削減します。
論文 参考訳(メタデータ) (2021-06-14T07:36:25Z) - Multiagent Rollout and Policy Iteration for POMDP with Application to
Multi-Robot Repair Problems [1.6939372704265414]
有限状態および制御空間,部分状態観測,マルチエージェント構造を有する無限地平面割引動的プログラミング問題を考える。
本手法は、部分的に観測可能なマルチエージェント問題の計算問題に特に対処する。
論文 参考訳(メタデータ) (2020-11-09T06:51:50Z) - Non-asymptotic Convergence of Adam-type Reinforcement Learning
Algorithms under Markovian Sampling [56.394284787780364]
本稿では、ポリシー勾配(PG)と時間差(TD)学習の2つの基本RLアルゴリズムに対して、最初の理論的収束解析を行う。
一般の非線形関数近似の下では、PG-AMSGradは定常点の近傍に収束し、$mathcalO(log T/sqrtT)$である。
線形関数近似の下では、一定段階のTD-AMSGradは$mathcalO(log T/sqrtT)の速度で大域的最適化の近傍に収束する。
論文 参考訳(メタデータ) (2020-02-15T00:26:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。