論文の概要: TempLe: Learning Template of Transitions for Sample Efficient Multi-task
RL
- arxiv url: http://arxiv.org/abs/2002.06659v2
- Date: Mon, 8 Mar 2021 17:14:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-31 17:39:00.668360
- Title: TempLe: Learning Template of Transitions for Sample Efficient Multi-task
RL
- Title(参考訳): TempLe: マルチタスクRLにおける遷移の学習テンプレート
- Authors: Yanchao Sun, Xiangyu Yin, Furong Huang
- Abstract要約: TempLeはマルチタスク強化学習のための最初のPAC-MDP法である。
オンライン" と "有限モデル" の2つのアルゴリズムをそれぞれ提示する。
提案したTempLeアルゴリズムは,シングルタスク学習者や最先端のマルチタスク手法よりもはるかに低いサンプリング複雑性を実現する。
- 参考スコア(独自算出の注目度): 18.242904106537654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transferring knowledge among various environments is important to efficiently
learn multiple tasks online. Most existing methods directly use the previously
learned models or previously learned optimal policies to learn new tasks.
However, these methods may be inefficient when the underlying models or optimal
policies are substantially different across tasks. In this paper, we propose
Template Learning (TempLe), the first PAC-MDP method for multi-task
reinforcement learning that could be applied to tasks with varying state/action
space. TempLe generates transition dynamics templates, abstractions of the
transition dynamics across tasks, to gain sample efficiency by extracting
similarities between tasks even when their underlying models or optimal
policies have limited commonalities. We present two algorithms for an "online"
and a "finite-model" setting respectively. We prove that our proposed TempLe
algorithms achieve much lower sample complexity than single-task learners or
state-of-the-art multi-task methods. We show via systematically designed
experiments that our TempLe method universally outperforms the state-of-the-art
multi-task methods (PAC-MDP or not) in various settings and regimes.
- Abstract(参考訳): 様々な環境における知識の伝達は、オンラインで複数のタスクを効率的に学習することが重要である。
既存のほとんどの手法では、学習済みのモデルや学習済みの最適ポリシーを直接使用して新しいタスクを学習する。
しかし、これらの手法は、基礎となるモデルや最適ポリシーがタスク間で大きく異なる場合、非効率である可能性がある。
本稿では,状態/動作空間の異なるタスクに適用可能な,マルチタスク強化学習のための最初のpac-mdp手法であるテンプレート学習を提案する。
TempLeは、タスク間の遷移ダイナミクスの抽象化であるトランジションダイナミクステンプレートを生成し、基礎となるモデルや最適なポリシーが共通性に制限されている場合でも、タスク間の類似性を抽出することで、サンプル効率を得る。
本稿では,「オンライン」と「有限モデル」の2つのアルゴリズムを提案する。
提案したTempLeアルゴリズムは,シングルタスク学習者や最先端のマルチタスク手法よりもはるかに低いサンプリング複雑性を実現する。
我々は,TempLe法が様々な設定や状況において,最先端マルチタスク法(PAC-MDPか否かに関わらず)を普遍的に上回っていることを示す。
関連論文リスト
- On Giant's Shoulders: Effortless Weak to Strong by Dynamic Logits Fusion [23.63688816017186]
既存の弱強法では、静的な知識伝達比と、複雑な知識を伝達するための単一の小さなモデルを用いることが多い。
本稿では,複数のタスク固有小モデルに対して,それぞれ異なるタスクに特化して動作する動的ロジット融合手法を提案する。
本手法では,シングルタスクシナリオでは96.4%,マルチタスクシナリオでは86.3%のパフォーマンスギャップを埋める。
論文 参考訳(メタデータ) (2024-06-17T03:07:41Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - QMP: Q-switch Mixture of Policies for Multi-Task Behavior Sharing [18.127823952220123]
マルチタスク強化学習(MTRL)は、複数のタスクを同時に学習してサンプル効率を向上させることを目的としている。
本稿では,既存のMTRLメソッドに加えて,タスク間での行動ポリシーを共有するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-01T18:58:20Z) - Multi-task Active Learning for Pre-trained Transformer-based Models [22.228551277598804]
複数のタスクをひとつのモデルで共同で学習するマルチタスク学習により、NLPモデルは複数のアノテーションから情報を共有することができる。
このテクニックでは、コストがかかり、面倒な複数のアノテーションスキームで同じテキストに注釈を付ける必要がある。
アクティブラーニング(AL)は、ラベルなし例を反復的に選択することで、アノテーションプロセスの最適化を実証している。
論文 参考訳(メタデータ) (2022-08-10T14:54:13Z) - Explaining the Effectiveness of Multi-Task Learning for Efficient
Knowledge Extraction from Spine MRI Reports [2.5953185061765884]
一つのマルチタスクモデルがタスク固有のモデルの性能にマッチすることを示す。
内科医による頚椎, 腰椎への注視所見について検討した。
論文 参考訳(メタデータ) (2022-05-06T01:51:19Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - The Effect of Diversity in Meta-Learning [79.56118674435844]
少ないショット学習は、少数の例から見れば、新しいタスクに対処できる表現を学習することを目的としている。
近年の研究では,タスク分布がモデルの性能に重要な役割を担っていることが示されている。
タスクの多様性がメタ学習アルゴリズムに与える影響を評価するために,多種多様なモデルとデータセットのタスク分布について検討する。
論文 参考訳(メタデータ) (2022-01-27T19:39:07Z) - UniPELT: A Unified Framework for Parameter-Efficient Language Model
Tuning [64.638804236566]
本稿では,異なるPELTメソッドをサブモジュールとして組み込んだ統一フレームワークUniPELTを提案する。
注目すべきは、GLUEベンチマークにおいて、UniPELTは、異なる設定で微調整を組み込んだり、性能を上回る、最高のPELTメソッドと比較して、一貫して13パーセントのゲインを達成していることだ。
論文 参考訳(メタデータ) (2021-10-14T17:40:08Z) - Controllable Pareto Multi-Task Learning [55.945680594691076]
マルチタスク学習システムは,複数のタスクを同時に解決することを目的としている。
固定されたモデルキャパシティでは、タスクは互いに衝突し、システムは通常、それらすべてを学ぶためにトレードオフをしなければならない。
本研究では,異なるタスク間のリアルタイムなトレードオフ制御を実現するための,新しい制御可能なマルチタスク学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-13T11:53:55Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。