論文の概要: Not All Tasks Are Equally Difficult: Multi-Task Reinforcement Learning
with Dynamic Depth Routing
- arxiv url: http://arxiv.org/abs/2312.14472v1
- Date: Fri, 22 Dec 2023 06:51:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 15:49:58.270269
- Title: Not All Tasks Are Equally Difficult: Multi-Task Reinforcement Learning
with Dynamic Depth Routing
- Title(参考訳): すべてのタスクが同じくらい難しいわけではない:動的深さルーティングによるマルチタスク強化学習
- Authors: Jinmin He, Kai Li, Yifan Zang, Haobo Fu, Qiang Fu, Junliang Xing, Jian
Cheng
- Abstract要約: マルチタスク強化学習は、一つのポリシーで複数のタスクをこなす。
この研究は動的深度ルーティング(D2R)フレームワークを示し、特定の中間モジュールの戦略的スキップを学習し、各タスクに対して異なる数のモジュールを柔軟に選択する。
さらに,教師なしタスクの経路探索を継続して促進する自動経路分散機構を設計し,マスタ付きタスクの経路を乱すことなく提案する。
- 参考スコア(独自算出の注目度): 26.44273671379482
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-task reinforcement learning endeavors to accomplish a set of different
tasks with a single policy. To enhance data efficiency by sharing parameters
across multiple tasks, a common practice segments the network into distinct
modules and trains a routing network to recombine these modules into
task-specific policies. However, existing routing approaches employ a fixed
number of modules for all tasks, neglecting that tasks with varying
difficulties commonly require varying amounts of knowledge. This work presents
a Dynamic Depth Routing (D2R) framework, which learns strategic skipping of
certain intermediate modules, thereby flexibly choosing different numbers of
modules for each task. Under this framework, we further introduce a ResRouting
method to address the issue of disparate routing paths between behavior and
target policies during off-policy training. In addition, we design an automatic
route-balancing mechanism to encourage continued routing exploration for
unmastered tasks without disturbing the routing of mastered ones. We conduct
extensive experiments on various robotics manipulation tasks in the Meta-World
benchmark, where D2R achieves state-of-the-art performance with significantly
improved learning efficiency.
- Abstract(参考訳): マルチタスク強化学習は、一つのポリシーで異なるタスクセットを達成する。
複数のタスクにまたがるパラメータを共有することでデータ効率を向上させるため、一般的なプラクティスでは、ネットワークを異なるモジュールに分割し、これらのモジュールをタスク固有のポリシーに再結合するようにルーティングネットワークを訓練する。
しかしながら、既存のルーティングアプローチでは、すべてのタスクに一定数のモジュールを使用するため、さまざまな困難を伴うタスクには通常、さまざまな知識が必要になることを無視する。
この研究は動的深度ルーティング(D2R)フレームワークを示し、特定の中間モジュールの戦略的スキップを学習し、各タスクに対して異なる数のモジュールを柔軟に選択する。
この枠組みでは,オフ・ポリシー・トレーニング中の行動と対象ポリシーの異なる経路の問題に対処するための再ルーティング手法についても紹介する。
さらに,マスタードタスクのルーティングを乱すことなく,未マスタータスクの経路探索を継続させる自動経路バランス機構の設計を行った。
メタワールドベンチマークでは,D2Rが最先端性能を実現し,学習効率が大幅に向上した。
関連論文リスト
- Contrastive Modules with Temporal Attention for Multi-Task Reinforcement
Learning [29.14234496784581]
マルチタスク強化学習のためのCMTA法を用いたコントラストモジュールを提案する。
CMTAは、互いに異なるモジュールを対照的に学習し、共有モジュールをタスクレベルよりも細かい粒度で組み合わせることによって制約する。
実験の結果,CMTAは各タスクを個別に学習し,大幅な性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2023-11-02T08:41:00Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Sparsely Activated Mixture-of-Experts are Robust Multi-Task Learners [67.5865966762559]
本研究では,Mixture-of-Experts (MoE) がマルチタスク学習を改善するかを検討した。
タスク認識ゲーティング関数を考案し、異なるタスクから専門の専門家にサンプルをルーティングする。
これにより、多数のパラメータを持つ疎活性化マルチタスクモデルが得られるが、高密度モデルの計算コストは同じである。
論文 参考訳(メタデータ) (2022-04-16T00:56:12Z) - Controllable Dynamic Multi-Task Architectures [92.74372912009127]
本稿では,そのアーキテクチャと重みを動的に調整し,所望のタスク選択とリソース制約に適合させる制御可能なマルチタスクネットワークを提案する。
本稿では,タスク親和性と分岐正規化損失を利用した2つのハイパーネットの非交互トレーニングを提案し,入力の嗜好を取り入れ,適応重み付き木構造モデルを予測する。
論文 参考訳(メタデータ) (2022-03-28T17:56:40Z) - Modular Adaptive Policy Selection for Multi-Task Imitation Learning
through Task Division [60.232542918414985]
マルチタスク学習は、しばしば負の伝達に悩まされ、タスク固有の情報を共有する。
これは、プロトポリケーションをモジュールとして使用して、タスクを共有可能な単純なサブ振る舞いに分割する。
また、タスクを共有サブ行動とタスク固有のサブ行動の両方に自律的に分割する能力を示す。
論文 参考訳(メタデータ) (2022-03-28T15:53:17Z) - Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。
合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。
次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文 参考訳(メタデータ) (2021-09-15T21:19:11Z) - Reparameterizing Convolutions for Incremental Multi-Task Learning
without Task Interference [75.95287293847697]
マルチタスクモデルを開発する際の2つの一般的な課題は、しばしば文献で見過ごされる。
まず、モデルを本質的に漸進的に可能にし、以前に学んだことを忘れずに新しいタスクから情報を継続的に取り入れる(インクリメンタルラーニング)。
第二に、タスク間の有害な相互作用を排除し、マルチタスク設定(タスク干渉)においてシングルタスクのパフォーマンスを著しく低下させることが示されている。
論文 参考訳(メタデータ) (2020-07-24T14:44:46Z) - Multi-Task Reinforcement Learning with Soft Modularization [25.724764855681137]
マルチタスク学習は強化学習において非常に難しい問題である。
この最適化問題を緩和するために,ポリシー表現に明示的なモジュール化手法を導入する。
提案手法は,強いベースライン上でのサンプリング効率と性能を,大きなマージンで向上することを示す。
論文 参考訳(メタデータ) (2020-03-30T17:47:04Z) - Dynamic Task Weighting Methods for Multi-task Networks in Autonomous
Driving Systems [10.625400639764734]
ディープマルチタスクネットワークは、自動運転システムに特に関心がある。
進化的メタラーニングとタスクベースの選択的バックプロパゲーションを組み合わせた新しい手法を提案する。
提案手法は,2タスクアプリケーションにおいて,最先端の手法よりも有意差がある。
論文 参考訳(メタデータ) (2020-01-07T18:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。