論文の概要: QMP: Q-switch Mixture of Policies for Multi-Task Behavior Sharing
- arxiv url: http://arxiv.org/abs/2302.00671v2
- Date: Mon, 07 Oct 2024 10:04:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:40:51.098445
- Title: QMP: Q-switch Mixture of Policies for Multi-Task Behavior Sharing
- Title(参考訳): QMP:マルチタスク行動共有のためのQ-switch Mixture of Policies
- Authors: Grace Zhang, Ayush Jain, Injune Hwang, Shao-Hua Sun, Joseph J. Lim,
- Abstract要約: マルチタスク強化学習(MTRL)は、複数のタスクを同時に学習してサンプル効率を向上させることを目的としている。
本稿では,既存のMTRLメソッドに加えて,タスク間での行動ポリシーを共有するための新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 18.127823952220123
- License:
- Abstract: Multi-task reinforcement learning (MTRL) aims to learn several tasks simultaneously for better sample efficiency than learning them separately. Traditional methods achieve this by sharing parameters or relabeled data between tasks. In this work, we introduce a new framework for sharing behavioral policies across tasks, which can be used in addition to existing MTRL methods. The key idea is to improve each task's off-policy data collection by employing behaviors from other task policies. Selectively sharing helpful behaviors acquired in one task to collect training data for another task can lead to higher-quality trajectories, leading to more sample-efficient MTRL. Thus, we introduce a simple and principled framework called Q-switch mixture of policies (QMP) that selectively shares behavior between different task policies by using the task's Q-function to evaluate and select useful shareable behaviors. We theoretically analyze how QMP improves the sample efficiency of the underlying RL algorithm. Our experiments show that QMP's behavioral policy sharing provides complementary gains over many popular MTRL algorithms and outperforms alternative ways to share behaviors in various manipulation, locomotion, and navigation environments. Videos are available at https://qmp-mtrl.github.io.
- Abstract(参考訳): マルチタスク強化学習(MTRL)は、複数のタスクを同時に学習してサンプル効率を向上させることを目的としている。
従来の手法では、タスク間でパラメータや許容データを共有することでこれを達成している。
本稿では,既存のMTRLメソッドに加えて,タスク間での行動ポリシーを共有するための新しいフレームワークを提案する。
鍵となる考え方は、各タスクの外部データ収集を改善することである。
あるタスクで得られた有用な振る舞いを選択的に共有して、別のタスクのトレーニングデータを収集すると、より高品質な軌道が得られ、よりサンプリング効率のよいMTRLが得られる。
そこで本研究では,Q-switch Mixed of Policy (QMP) という,タスクのQ-関数を用いてタスク間の振る舞いを選択的に共有し,有用な共有行動を評価し,選択する,シンプルで原則化されたフレームワークを提案する。
理論的には、QMPが基礎となるRLアルゴリズムのサンプル効率をどのように改善するかを解析する。
実験の結果、QMPの行動ポリシー共有は、多くのMTRLアルゴリズムよりも相補的な利益をもたらし、様々な操作、移動、ナビゲーション環境における行動を共有する代替手段よりも優れていることがわかった。
ビデオはhttps://qmp-mtrl.github.ioで公開されている。
関連論文リスト
- Provable Benefits of Multi-task RL under Non-Markovian Decision Making
Processes [56.714690083118406]
マルコフ決定過程 (MDP) 下でのマルチタスク強化学習 (RL) において, 共有潜在構造の存在は, シングルタスクRLと比較して, サンプル効率に有意な利益をもたらすことが示されている。
このような利点が、部分的に観測可能なMDP(POMDP)やより一般的な予測状態表現(PSR)といった、より一般的なシーケンシャルな意思決定問題にまで拡張できるかどうかを検討する。
提案手法は,全てのPSRに対してほぼ最適ポリシーを求めるための,証明可能なアルゴリズム UMT-PSR を提案し,PSR の合同モデルクラスが有するマルチタスク学習の利点が示されることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:50:28Z) - DynaShare: Task and Instance Conditioned Parameter Sharing for
Multi-Task Learning [11.955637263520492]
マルチタスク学習のための新しいパラメータ共有手法を提案する。
本稿では,タスクと入力インスタンスの両方に基づいて,ネットワークのどの部分をアクティブにするかを動的に決定する。
提案手法は,個別入力インスタンスの粗い層選択とゲーティングユニットのためのタスク固有のポリシーからなる階層的ゲーティングポリシーを学習する。
論文 参考訳(メタデータ) (2023-05-26T23:43:21Z) - Q-Pensieve: Boosting Sample Efficiency of Multi-Objective RL Through Memory Sharing of Q-Snapshots [11.533449955841968]
そこで我々は,Q-Pensieveを提案する。Q-Pensieveは,Q-Snapshotのコレクションを格納し,ポリシー更新の方向性を共同で決定する政策改善スキームである。
本稿では,Q-Pensieveが収束保証付きソフトポリシー反復と自然に統合可能であることを示す。
論文 参考訳(メタデータ) (2022-12-06T16:29:47Z) - Hypernetworks for Zero-shot Transfer in Reinforcement Learning [21.994654567458017]
Hypernetworksは、目に見えないさまざまなタスク条件で振る舞いを生成するように訓練されている。
この研究はメタRL、文脈RL、伝達学習に関連している。
提案手法は,マルチタスクおよびメタRLアプローチによるベースラインの大幅な改善を示す。
論文 参考訳(メタデータ) (2022-11-28T15:48:35Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - An Analysis Of Entire Space Multi-Task Models For Post-Click Conversion
Prediction [3.2979460528864926]
大規模広告プラットフォーム上でのモバイルアプリ広告におけるポストクリック変換イベント(インストール)の確率を近似することを検討する。
CTRタスクからCVRタスクへ、いくつかの異なるアプローチが、同様のポジティブなレベルの移行をもたらすことを示す。
我々の発見は、マルチタスク学習が現実世界の大規模アプリケーションで関連するイベントをモデル化する上で、合理的なアプローチであることを示す証拠が増えていることを示唆している。
論文 参考訳(メタデータ) (2021-08-18T13:39:50Z) - Imitation Learning from MPC for Quadrupedal Multi-Gait Control [63.617157490920505]
本稿では,歩行ロボットの複数の歩行を模倣する単一ポリシーを学習する学習アルゴリズムを提案する。
モデル予測制御によって導かれる模擬学習のアプローチであるMPC-Netを使用し、拡張します。
ハードウェアに対する我々のアプローチを検証し、学習したポリシーが教師に取って代わって複数の歩留まりを制御できることを示します。
論文 参考訳(メタデータ) (2021-03-26T08:48:53Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - TempLe: Learning Template of Transitions for Sample Efficient Multi-task
RL [18.242904106537654]
TempLeはマルチタスク強化学習のための最初のPAC-MDP法である。
オンライン" と "有限モデル" の2つのアルゴリズムをそれぞれ提示する。
提案したTempLeアルゴリズムは,シングルタスク学習者や最先端のマルチタスク手法よりもはるかに低いサンプリング複雑性を実現する。
論文 参考訳(メタデータ) (2020-02-16T19:46:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。