論文の概要: Multi-Task Reinforcement Learning with Soft Modularization
- arxiv url: http://arxiv.org/abs/2003.13661v2
- Date: Mon, 7 Dec 2020 07:14:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 06:23:59.113935
- Title: Multi-Task Reinforcement Learning with Soft Modularization
- Title(参考訳): ソフトモジュール化によるマルチタスク強化学習
- Authors: Ruihan Yang, Huazhe Xu, Yi Wu, Xiaolong Wang
- Abstract要約: マルチタスク学習は強化学習において非常に難しい問題である。
この最適化問題を緩和するために,ポリシー表現に明示的なモジュール化手法を導入する。
提案手法は,強いベースライン上でのサンプリング効率と性能を,大きなマージンで向上することを示す。
- 参考スコア(独自算出の注目度): 25.724764855681137
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-task learning is a very challenging problem in reinforcement learning.
While training multiple tasks jointly allow the policies to share parameters
across different tasks, the optimization problem becomes non-trivial: It
remains unclear what parameters in the network should be reused across tasks,
and how the gradients from different tasks may interfere with each other. Thus,
instead of naively sharing parameters across tasks, we introduce an explicit
modularization technique on policy representation to alleviate this
optimization issue. Given a base policy network, we design a routing network
which estimates different routing strategies to reconfigure the base network
for each task. Instead of directly selecting routes for each task, our
task-specific policy uses a method called soft modularization to softly combine
all the possible routes, which makes it suitable for sequential tasks. We
experiment with various robotics manipulation tasks in simulation and show our
method improves both sample efficiency and performance over strong baselines by
a large margin.
- Abstract(参考訳): マルチタスク学習は強化学習において非常に難しい問題である。
複数のタスクを共同でトレーニングすることで、異なるタスク間でパラメータを共有することができるが、最適化の問題は簡単ではない: ネットワーク内のどのパラメータがタスク間で再利用されるべきなのか、異なるタスクからの勾配が相互に干渉する可能性があるのかは、まだ不明である。
したがって、タスク間でパラメータをナビゲートする代わりに、この最適化問題を緩和するためにポリシー表現に明示的なモジュール化手法を導入する。
基本ポリシーネットワークが与えられた場合、各タスクのベースネットワークを再構成するための異なるルーティング戦略を推定するルーティングネットワークを設計する。
タスクごとにルートを直接選択するのではなく、soft modularizationと呼ばれるメソッドを使用して、可能なすべてのルートをソフトに結合し、シーケンシャルなタスクに適合させます。
我々は,様々なロボット操作タスクをシミュレーションで実験し,サンプル効率と性能を,強いベースラインよりも大きなマージンで改善することを示す。
関連論文リスト
- Not All Tasks Are Equally Difficult: Multi-Task Deep Reinforcement
Learning with Dynamic Depth Routing [26.44273671379482]
マルチタスク強化学習は、一つのポリシーで複数のタスクをこなす。
この研究は動的深度ルーティング(D2R)フレームワークを示し、特定の中間モジュールの戦略的スキップを学習し、各タスクに対して異なる数のモジュールを柔軟に選択する。
さらに,教師なしタスクの経路探索を継続して促進する自動経路分散機構を設計し,マスタ付きタスクの経路を乱すことなく提案する。
論文 参考訳(メタデータ) (2023-12-22T06:51:30Z) - MetaModulation: Learning Variational Feature Hierarchies for Few-Shot
Learning with Fewer Tasks [63.016244188951696]
本稿では,タスクを減らした少数ショット学習手法を提案する。
メタトレーニングタスクを増やすために、さまざまなバッチレベルでパラメータを変更します。
また,変分法を取り入れた学習的変分特徴階層も導入する。
論文 参考訳(メタデータ) (2023-05-17T15:47:47Z) - PaCo: Parameter-Compositional Multi-Task Reinforcement Learning [44.43196786555784]
これらの課題に対処するために,パラメータ合成アプローチ(PaCo)を導入する。
すべての単一タスクに対するポリシーはこの部分空間にあり、学習された集合と補間することで構成できる。
メタワールドベンチマークの最先端性能を実証し,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-10-21T01:00:10Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Sparsely Activated Mixture-of-Experts are Robust Multi-Task Learners [67.5865966762559]
本研究では,Mixture-of-Experts (MoE) がマルチタスク学習を改善するかを検討した。
タスク認識ゲーティング関数を考案し、異なるタスクから専門の専門家にサンプルをルーティングする。
これにより、多数のパラメータを持つ疎活性化マルチタスクモデルが得られるが、高密度モデルの計算コストは同じである。
論文 参考訳(メタデータ) (2022-04-16T00:56:12Z) - Leveraging convergence behavior to balance conflicting tasks in
multi-task learning [3.6212652499950138]
マルチタスク学習は、パフォーマンスの一般化を改善するために相関タスクを使用する。
タスクは互いに衝突することが多いため、複数のタスクの勾配をどのように組み合わせるべきかを定義するのは難しい。
バックプロパゲーション中の各タスクの重要度を調整する動的バイアスを生成するために,勾配の時間的挙動を考慮した手法を提案する。
論文 参考訳(メタデータ) (2022-04-14T01:52:34Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。
合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。
次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文 参考訳(メタデータ) (2021-09-15T21:19:11Z) - Small Towers Make Big Differences [59.243296878666285]
マルチタスク学習は、複数の機械学習タスクを同時に解決することを目的としている。
マルチタスク学習問題に対する優れた解法は、Paretoの最適性に加えて一般化可能であるべきである。
本稿では,マルチタスクモデルのためのパラメータ下自己助詞の手法を提案し,両世界のベストを達成した。
論文 参考訳(メタデータ) (2020-08-13T10:45:31Z) - Dynamic Task Weighting Methods for Multi-task Networks in Autonomous
Driving Systems [10.625400639764734]
ディープマルチタスクネットワークは、自動運転システムに特に関心がある。
進化的メタラーニングとタスクベースの選択的バックプロパゲーションを組み合わせた新しい手法を提案する。
提案手法は,2タスクアプリケーションにおいて,最先端の手法よりも有意差がある。
論文 参考訳(メタデータ) (2020-01-07T18:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。