論文の概要: Multi-Task Reinforcement Learning with Soft Modularization
- arxiv url: http://arxiv.org/abs/2003.13661v2
- Date: Mon, 7 Dec 2020 07:14:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 06:23:59.113935
- Title: Multi-Task Reinforcement Learning with Soft Modularization
- Title(参考訳): ソフトモジュール化によるマルチタスク強化学習
- Authors: Ruihan Yang, Huazhe Xu, Yi Wu, Xiaolong Wang
- Abstract要約: マルチタスク学習は強化学習において非常に難しい問題である。
この最適化問題を緩和するために,ポリシー表現に明示的なモジュール化手法を導入する。
提案手法は,強いベースライン上でのサンプリング効率と性能を,大きなマージンで向上することを示す。
- 参考スコア(独自算出の注目度): 25.724764855681137
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-task learning is a very challenging problem in reinforcement learning.
While training multiple tasks jointly allow the policies to share parameters
across different tasks, the optimization problem becomes non-trivial: It
remains unclear what parameters in the network should be reused across tasks,
and how the gradients from different tasks may interfere with each other. Thus,
instead of naively sharing parameters across tasks, we introduce an explicit
modularization technique on policy representation to alleviate this
optimization issue. Given a base policy network, we design a routing network
which estimates different routing strategies to reconfigure the base network
for each task. Instead of directly selecting routes for each task, our
task-specific policy uses a method called soft modularization to softly combine
all the possible routes, which makes it suitable for sequential tasks. We
experiment with various robotics manipulation tasks in simulation and show our
method improves both sample efficiency and performance over strong baselines by
a large margin.
- Abstract(参考訳): マルチタスク学習は強化学習において非常に難しい問題である。
複数のタスクを共同でトレーニングすることで、異なるタスク間でパラメータを共有することができるが、最適化の問題は簡単ではない: ネットワーク内のどのパラメータがタスク間で再利用されるべきなのか、異なるタスクからの勾配が相互に干渉する可能性があるのかは、まだ不明である。
したがって、タスク間でパラメータをナビゲートする代わりに、この最適化問題を緩和するためにポリシー表現に明示的なモジュール化手法を導入する。
基本ポリシーネットワークが与えられた場合、各タスクのベースネットワークを再構成するための異なるルーティング戦略を推定するルーティングネットワークを設計する。
タスクごとにルートを直接選択するのではなく、soft modularizationと呼ばれるメソッドを使用して、可能なすべてのルートをソフトに結合し、シーケンシャルなタスクに適合させます。
我々は,様々なロボット操作タスクをシミュレーションで実験し,サンプル効率と性能を,強いベースラインよりも大きなマージンで改善することを示す。
関連論文リスト
- Task-Aware Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [70.96345405979179]
オフラインマルチタスク強化学習(MTRL)の目的は、オンライン環境相互作用を必要とせず、多様なタスクに適用可能な統一されたポリシーを開発することである。
タスクの内容と複雑さの変化は、政策の定式化において重大な課題を引き起こします。
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
論文 参考訳(メタデータ) (2024-11-02T05:49:14Z) - HarmoDT: Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [72.25707314772254]
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
このフレームワークの上位レベルは、調和部分空間を規定するタスク固有のマスクの学習に特化しており、内部レベルは、統一されたポリシーの全体的なパフォーマンスを高めるためにパラメータの更新に重点を置いている。
論文 参考訳(メタデータ) (2024-05-28T11:41:41Z) - Not All Tasks Are Equally Difficult: Multi-Task Deep Reinforcement
Learning with Dynamic Depth Routing [26.44273671379482]
マルチタスク強化学習は、一つのポリシーで複数のタスクをこなす。
この研究は動的深度ルーティング(D2R)フレームワークを示し、特定の中間モジュールの戦略的スキップを学習し、各タスクに対して異なる数のモジュールを柔軟に選択する。
さらに,教師なしタスクの経路探索を継続して促進する自動経路分散機構を設計し,マスタ付きタスクの経路を乱すことなく提案する。
論文 参考訳(メタデータ) (2023-12-22T06:51:30Z) - MetaModulation: Learning Variational Feature Hierarchies for Few-Shot
Learning with Fewer Tasks [63.016244188951696]
本稿では,タスクを減らした少数ショット学習手法を提案する。
メタトレーニングタスクを増やすために、さまざまなバッチレベルでパラメータを変更します。
また,変分法を取り入れた学習的変分特徴階層も導入する。
論文 参考訳(メタデータ) (2023-05-17T15:47:47Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。
合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。
次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文 参考訳(メタデータ) (2021-09-15T21:19:11Z) - Small Towers Make Big Differences [59.243296878666285]
マルチタスク学習は、複数の機械学習タスクを同時に解決することを目的としている。
マルチタスク学習問題に対する優れた解法は、Paretoの最適性に加えて一般化可能であるべきである。
本稿では,マルチタスクモデルのためのパラメータ下自己助詞の手法を提案し,両世界のベストを達成した。
論文 参考訳(メタデータ) (2020-08-13T10:45:31Z) - Dynamic Task Weighting Methods for Multi-task Networks in Autonomous
Driving Systems [10.625400639764734]
ディープマルチタスクネットワークは、自動運転システムに特に関心がある。
進化的メタラーニングとタスクベースの選択的バックプロパゲーションを組み合わせた新しい手法を提案する。
提案手法は,2タスクアプリケーションにおいて,最先端の手法よりも有意差がある。
論文 参考訳(メタデータ) (2020-01-07T18:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。