Fugu-MT 論文翻訳(概要): Multi-Task Reinforcement Learning with Soft Modularization

論文の概要: Multi-Task Reinforcement Learning with Soft Modularization

arxiv url: http://arxiv.org/abs/2003.13661v2
Date: Mon, 7 Dec 2020 07:14:11 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-18 06:23:59.113935
Title: Multi-Task Reinforcement Learning with Soft Modularization
Title（参考訳）: ソフトモジュール化によるマルチタスク強化学習
Authors: Ruihan Yang, Huazhe Xu, Yi Wu, Xiaolong Wang
Abstract要約: マルチタスク学習は強化学習において非常に難しい問題である。この最適化問題を緩和するために,ポリシー表現に明示的なモジュール化手法を導入する。提案手法は,強いベースライン上でのサンプリング効率と性能を,大きなマージンで向上することを示す。
参考スコア（独自算出の注目度）: 25.724764855681137
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-task learning is a very challenging problem in reinforcement learning. While training multiple tasks jointly allow the policies to share parameters across different tasks, the optimization problem becomes non-trivial: It remains unclear what parameters in the network should be reused across tasks, and how the gradients from different tasks may interfere with each other. Thus, instead of naively sharing parameters across tasks, we introduce an explicit modularization technique on policy representation to alleviate this optimization issue. Given a base policy network, we design a routing network which estimates different routing strategies to reconfigure the base network for each task. Instead of directly selecting routes for each task, our task-specific policy uses a method called soft modularization to softly combine all the possible routes, which makes it suitable for sequential tasks. We experiment with various robotics manipulation tasks in simulation and show our method improves both sample efficiency and performance over strong baselines by a large margin.
Abstract（参考訳）: マルチタスク学習は強化学習において非常に難しい問題である。複数のタスクを共同でトレーニングすることで、異なるタスク間でパラメータを共有することができるが、最適化の問題は簡単ではない: ネットワーク内のどのパラメータがタスク間で再利用されるべきなのか、異なるタスクからの勾配が相互に干渉する可能性があるのかは、まだ不明である。したがって、タスク間でパラメータをナビゲートする代わりに、この最適化問題を緩和するためにポリシー表現に明示的なモジュール化手法を導入する。基本ポリシーネットワークが与えられた場合、各タスクのベースネットワークを再構成するための異なるルーティング戦略を推定するルーティングネットワークを設計する。タスクごとにルートを直接選択するのではなく、soft modularizationと呼ばれるメソッドを使用して、可能なすべてのルートをソフトに結合し、シーケンシャルなタスクに適合させます。我々は,様々なロボット操作タスクをシミュレーションで実験し,サンプル効率と性能を,強いベースラインよりも大きなマージンで改善することを示す。

関連論文リスト

Selective Task Group Updates for Multi-Task Optimization [44.601029688423914]
本稿では,タスクを効果的にグループ化し,学習プロセス中に更新する方法を適応的に決定するアルゴリズムを提案する。提案手法は,従来のマルチタスク最適化手法よりも大幅に優れている。
論文参考訳（メタデータ） (2025-02-17T16:26:05Z)
Task-Aware Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [70.96345405979179]
オフラインマルチタスク強化学習(MTRL)の目的は、オンライン環境相互作用を必要とせず、多様なタスクに適用可能な統一されたポリシーを開発することである。タスクの内容と複雑さの変化は、政策の定式化において重大な課題を引き起こします。本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
論文参考訳（メタデータ） (2024-11-02T05:49:14Z)
HarmoDT: Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [72.25707314772254]
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。このフレームワークの上位レベルは、調和部分空間を規定するタスク固有のマスクの学習に特化しており、内部レベルは、統一されたポリシーの全体的なパフォーマンスを高めるためにパラメータの更新に重点を置いている。
論文参考訳（メタデータ） (2024-05-28T11:41:41Z)
Not All Tasks Are Equally Difficult: Multi-Task Deep Reinforcement Learning with Dynamic Depth Routing [26.44273671379482]
マルチタスク強化学習は、一つのポリシーで複数のタスクをこなす。この研究は動的深度ルーティング(D2R)フレームワークを示し、特定の中間モジュールの戦略的スキップを学習し、各タスクに対して異なる数のモジュールを柔軟に選択する。さらに,教師なしタスクの経路探索を継続して促進する自動経路分散機構を設計し,マスタ付きタスクの経路を乱すことなく提案する。
論文参考訳（メタデータ） (2023-12-22T06:51:30Z)
MetaModulation: Learning Variational Feature Hierarchies for Few-Shot Learning with Fewer Tasks [63.016244188951696]
本稿では,タスクを減らした少数ショット学習手法を提案する。メタトレーニングタスクを増やすために、さまざまなバッチレベルでパラメータを変更します。また,変分法を取り入れた学習的変分特徴階層も導入する。
論文参考訳（メタデータ） (2023-05-17T15:47:47Z)
Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文参考訳（メタデータ） (2022-03-30T23:16:07Z)
Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文参考訳（メタデータ） (2021-09-15T21:19:11Z)
Small Towers Make Big Differences [59.243296878666285]
マルチタスク学習は、複数の機械学習タスクを同時に解決することを目的としている。マルチタスク学習問題に対する優れた解法は、Paretoの最適性に加えて一般化可能であるべきである。本稿では,マルチタスクモデルのためのパラメータ下自己助詞の手法を提案し,両世界のベストを達成した。
論文参考訳（メタデータ） (2020-08-13T10:45:31Z)
Dynamic Task Weighting Methods for Multi-task Networks in Autonomous Driving Systems [10.625400639764734]
ディープマルチタスクネットワークは、自動運転システムに特に関心がある。進化的メタラーニングとタスクベースの選択的バックプロパゲーションを組み合わせた新しい手法を提案する。提案手法は,2タスクアプリケーションにおいて,最先端の手法よりも有意差がある。
論文参考訳（メタデータ） (2020-01-07T18:54:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。