論文の概要: SplAgger: Split Aggregation for Meta-Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2403.03020v2
- Date: Fri, 8 Mar 2024 14:51:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 10:52:52.336149
- Title: SplAgger: Split Aggregation for Meta-Reinforcement Learning
- Title(参考訳): SplAgger: メタ強化学習のための分割集約
- Authors: Jacob Beck, Matthew Jackson, Risto Vuorio, Zheng Xiong, Shimon
Whiteson
- Abstract要約: ブラックボックスメソッドは、オフザシェルフシーケンスモデルをエンドツーエンドでトレーニングすることで実現している。
タスク推論メソッドは、未知のタスク上の後方分布を明示的に推論する。
近年の研究では、タスク推論シーケンスモデルは高いパフォーマンスには必要ないことが示されている。
- 参考スコア(独自算出の注目度): 34.60649307992502
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A core ambition of reinforcement learning (RL) is the creation of agents
capable of rapid learning in novel tasks. Meta-RL aims to achieve this by
directly learning such agents. Black box methods do so by training
off-the-shelf sequence models end-to-end. By contrast, task inference methods
explicitly infer a posterior distribution over the unknown task, typically
using distinct objectives and sequence models designed to enable task
inference. Recent work has shown that task inference methods are not necessary
for strong performance. However, it remains unclear whether task inference
sequence models are beneficial even when task inference objectives are not. In
this paper, we present strong evidence that task inference sequence models are
still beneficial. In particular, we investigate sequence models with
permutation invariant aggregation, which exploit the fact that, due to the
Markov property, the task posterior does not depend on the order of data. We
empirically confirm the advantage of permutation invariant sequence models
without the use of task inference objectives. However, we also find,
surprisingly, that there are multiple conditions under which permutation
variance remains useful. Therefore, we propose SplAgger, which uses both
permutation variant and invariant components to achieve the best of both
worlds, outperforming all baselines on continuous control and memory
environments.
- Abstract(参考訳): 強化学習(RL)の中核的な野望は、新しいタスクで迅速に学習できるエージェントを作ることである。
Meta-RLはこのようなエージェントを直接学習することでこれを実現する。
black boxメソッドは、市販のシーケンスモデルをエンドツーエンドでトレーニングする。
対照的に、タスク推論法は未知のタスク上での後方分布を明示的に推論し、タスク推論を可能にするために設計された異なる目的とシーケンスモデルを使用する。
近年の研究では、タスク推論手法は高い性能には必要ないことが示されている。
しかし,タスク推論対象がそうでない場合でも,タスク推論シーケンスモデルが有用かどうかは不明である。
本稿では,タスク推論シーケンスモデルが依然として有益であることを示す。
特に,マルコフ特性により後段のタスクがデータの順序に依存しないという事実を生かして,置換不変なアグリゲーションを持つシーケンスモデルについて検討する。
我々はタスク推論の目的を使わずに置換不変数列モデルの利点を実証的に確認する。
しかし、驚くべきことに、置換分散が有用である条件が複数存在することも判明した。
そこで本研究では,両世界の最善を達成するために置換変分成分と不変成分の両方を用いて,連続制御とメモリ環境において,すべてのベースラインを上回っているsplaggerを提案する。
関連論文リスト
- Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [72.2068175246167]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling
with Backtracking [98.22870889029114]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練や大きなアーキテクチャ変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - UniMASK: Unified Inference in Sequential Decision Problems [17.09745648221254]
UniMASKフレームワークを導入し、様々なシーケンシャルな意思決定タスクでトレーニング可能なモデルを特定する統一的な方法を提供する。
単一のUniMASKモデルは、シングルタスクモデルと同じようなパフォーマンスで多くのタスクを実行することができる。
論文 参考訳(メタデータ) (2022-11-20T04:54:49Z) - MetaKernel: Learning Variational Random Features with Limited Labels [120.90737681252594]
少数の注釈付きサンプルから学習し、新しいタスクでうまく一般化できるという根本的かつ困難な問題に、少数のショットラーニングが対処します。
マルチショット学習のためのランダムなフーリエ機能を備えたメタラーニングカーネルをMeta Kernelと呼びます。
論文 参考訳(メタデータ) (2021-05-08T21:24:09Z) - Conditional Meta-Learning of Linear Representations [57.90025697492041]
表現学習のための標準メタラーニングは、複数のタスク間で共有される共通の表現を見つけることを目的とする。
本研究では,タスクの側情報を手作業に適した表現にマッピングし,条件付け関数を推定することで,この問題を克服する。
この利点を実用的に活用できるメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-30T12:02:14Z) - Meta-Regularization by Enforcing Mutual-Exclusiveness [0.8057006406834467]
本稿では,メタ学習時の情報フローをモデル設計者が制御できるように,メタ学習モデルの正規化手法を提案する。
提案した正規化関数は,Omniglotデータセット上で$sim$$36%の精度向上を示す。
論文 参考訳(メタデータ) (2021-01-24T22:57:19Z) - Lifelong Learning Without a Task Oracle [13.331659934508764]
監視されたディープニューラルネットワークは、新しいタスクが学習されると、古いタスクの精度が大幅に低下することが知られている。
本稿では,メモリオーバーヘッドの少ないタスク割り当てマップの提案と比較を行う。
最高のパフォーマンスの変種は、平均的なパラメータメモリの増大を1.7%に抑えるだけである。
論文 参考訳(メタデータ) (2020-11-09T21:30:31Z) - A Markov Decision Process Approach to Active Meta Learning [24.50189361694407]
教師付き学習では、データが特定のタスクに関連付けられていると仮定して、与えられたデータセットに1つの統計モデルを適用する。
メタラーニングでは、データは多数のタスクと関連付けられており、同時に全てのタスクでうまく機能するモデルを模索する。
論文 参考訳(メタデータ) (2020-09-10T15:45:34Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。