論文の概要: Efficient Multi-Task Reinforcement Learning via Selective Behavior
Sharing
- arxiv url: http://arxiv.org/abs/2302.00671v1
- Date: Wed, 1 Feb 2023 18:58:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-02 12:41:06.246333
- Title: Efficient Multi-Task Reinforcement Learning via Selective Behavior
Sharing
- Title(参考訳): 選択行動共有による効率的なマルチタスク強化学習
- Authors: Grace Zhang, Ayush Jain, Injune Hwang, Shao-Hua Sun, Joseph J. Lim
- Abstract要約: 本稿では,タスク上の共有行動を特定し,探索をガイドするためのフレームワークを提案する。
動作共有がMTRLタスクの操作およびナビゲーションにおけるサンプル効率と最終性能をどのように改善するかを実証的に示す。
- 参考スコア(独自算出の注目度): 31.32009016018142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to leverage shared behaviors between tasks is critical for
sample-efficient multi-task reinforcement learning (MTRL). While prior methods
have primarily explored parameter and data sharing, direct behavior-sharing has
been limited to task families requiring similar behaviors. Our goal is to
extend the efficacy of behavior-sharing to more general task families that
could require a mix of shareable and conflicting behaviors. Our key insight is
an agent's behavior across tasks can be used for mutually beneficial
exploration. To this end, we propose a simple MTRL framework for identifying
shareable behaviors over tasks and incorporating them to guide exploration. We
empirically demonstrate how behavior sharing improves sample efficiency and
final performance on manipulation and navigation MTRL tasks and is even
complementary to parameter sharing. Result videos are available at
https://sites.google.com/view/qmp-mtrl.
- Abstract(参考訳): タスク間の共有行動を活用する能力は、サンプル効率のよいマルチタスク強化学習(MTRL)において重要である。
従来の手法は主にパラメータとデータ共有を探索してきたが、直接的な行動共有は同様の振る舞いを必要とするタスクファミリーに限られていた。
私たちのゴールは、行動共有の効果を、共有可能な行動と矛盾する行動の混合を必要とする、より一般的なタスクファミリーに拡張することです。
我々の重要な洞察は、エージェントのタスクにわたる振る舞いは、相互に有益な探索に使用できることである。
この目的のために,タスク上の共有可能な振る舞いを識別し,探索のガイドとして組み込むためのシンプルなMTRLフレームワークを提案する。
動作共有がMTRLタスクの操作およびナビゲーションにおけるサンプル効率と最終性能をどのように改善するかを実証的に実証し,パラメータ共有を補完する。
結果ビデオはhttps://sites.google.com/view/qmp-mtrl.comで閲覧できる。
関連論文リスト
- Provable Benefits of Multi-task RL under Non-Markovian Decision Making
Processes [56.714690083118406]
マルコフ決定過程 (MDP) 下でのマルチタスク強化学習 (RL) において, 共有潜在構造の存在は, シングルタスクRLと比較して, サンプル効率に有意な利益をもたらすことが示されている。
このような利点が、部分的に観測可能なMDP(POMDP)やより一般的な予測状態表現(PSR)といった、より一般的なシーケンシャルな意思決定問題にまで拡張できるかどうかを検討する。
提案手法は,全てのPSRに対してほぼ最適ポリシーを求めるための,証明可能なアルゴリズム UMT-PSR を提案し,PSR の合同モデルクラスが有するマルチタスク学習の利点が示されることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:50:28Z) - DynaShare: Task and Instance Conditioned Parameter Sharing for
Multi-Task Learning [11.955637263520492]
マルチタスク学習のための新しいパラメータ共有手法を提案する。
本稿では,タスクと入力インスタンスの両方に基づいて,ネットワークのどの部分をアクティブにするかを動的に決定する。
提案手法は,個別入力インスタンスの粗い層選択とゲーティングユニットのためのタスク固有のポリシーからなる階層的ゲーティングポリシーを学習する。
論文 参考訳(メタデータ) (2023-05-26T23:43:21Z) - Q-Pensieve: Boosting Sample Efficiency of Multi-Objective RL Through Memory Sharing of Q-Snapshots [11.533449955841968]
そこで我々は,Q-Pensieveを提案する。Q-Pensieveは,Q-Snapshotのコレクションを格納し,ポリシー更新の方向性を共同で決定する政策改善スキームである。
本稿では,Q-Pensieveが収束保証付きソフトポリシー反復と自然に統合可能であることを示す。
論文 参考訳(メタデータ) (2022-12-06T16:29:47Z) - Hypernetworks for Zero-shot Transfer in Reinforcement Learning [21.994654567458017]
Hypernetworksは、目に見えないさまざまなタスク条件で振る舞いを生成するように訓練されている。
この研究はメタRL、文脈RL、伝達学習に関連している。
提案手法は,マルチタスクおよびメタRLアプローチによるベースラインの大幅な改善を示す。
論文 参考訳(メタデータ) (2022-11-28T15:48:35Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - An Analysis Of Entire Space Multi-Task Models For Post-Click Conversion
Prediction [3.2979460528864926]
大規模広告プラットフォーム上でのモバイルアプリ広告におけるポストクリック変換イベント(インストール)の確率を近似することを検討する。
CTRタスクからCVRタスクへ、いくつかの異なるアプローチが、同様のポジティブなレベルの移行をもたらすことを示す。
我々の発見は、マルチタスク学習が現実世界の大規模アプリケーションで関連するイベントをモデル化する上で、合理的なアプローチであることを示す証拠が増えていることを示唆している。
論文 参考訳(メタデータ) (2021-08-18T13:39:50Z) - Imitation Learning from MPC for Quadrupedal Multi-Gait Control [63.617157490920505]
本稿では,歩行ロボットの複数の歩行を模倣する単一ポリシーを学習する学習アルゴリズムを提案する。
モデル予測制御によって導かれる模擬学習のアプローチであるMPC-Netを使用し、拡張します。
ハードウェアに対する我々のアプローチを検証し、学習したポリシーが教師に取って代わって複数の歩留まりを制御できることを示します。
論文 参考訳(メタデータ) (2021-03-26T08:48:53Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - TempLe: Learning Template of Transitions for Sample Efficient Multi-task
RL [18.242904106537654]
TempLeはマルチタスク強化学習のための最初のPAC-MDP法である。
オンライン" と "有限モデル" の2つのアルゴリズムをそれぞれ提示する。
提案したTempLeアルゴリズムは,シングルタスク学習者や最先端のマルチタスク手法よりもはるかに低いサンプリング複雑性を実現する。
論文 参考訳(メタデータ) (2020-02-16T19:46:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。