論文の概要: SplAgger: Split Aggregation for Meta-Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2403.03020v3
- Date: Sat, 1 Jun 2024 22:35:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 16:08:41.878825
- Title: SplAgger: Split Aggregation for Meta-Reinforcement Learning
- Title(参考訳): SplAgger: メタ強化学習のための分割集約
- Authors: Jacob Beck, Matthew Jackson, Risto Vuorio, Zheng Xiong, Shimon Whiteson,
- Abstract要約: ブラックボックスメソッドは、オフザシェルフシーケンスモデルをエンドツーエンドでトレーニングすることで実現している。
タスク推論メソッドは、未知のタスク上の後方分布を明示的に推論する。
近年の研究では、タスク推論シーケンスモデルは高いパフォーマンスには必要ないことが示されている。
タスク推論シーケンスモデルが依然として有用であることを示す。
- 参考スコア(独自算出の注目度): 32.25672143072966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A core ambition of reinforcement learning (RL) is the creation of agents capable of rapid learning in novel tasks. Meta-RL aims to achieve this by directly learning such agents. Black box methods do so by training off-the-shelf sequence models end-to-end. By contrast, task inference methods explicitly infer a posterior distribution over the unknown task, typically using distinct objectives and sequence models designed to enable task inference. Recent work has shown that task inference methods are not necessary for strong performance. However, it remains unclear whether task inference sequence models are beneficial even when task inference objectives are not. In this paper, we present evidence that task inference sequence models are indeed still beneficial. In particular, we investigate sequence models with permutation invariant aggregation, which exploit the fact that, due to the Markov property, the task posterior does not depend on the order of data. We empirically confirm the advantage of permutation invariant sequence models without the use of task inference objectives. However, we also find, surprisingly, that there are multiple conditions under which permutation variance remains useful. Therefore, we propose SplAgger, which uses both permutation variant and invariant components to achieve the best of both worlds, outperforming all baselines evaluated on continuous control and memory environments. Code is provided at https://github.com/jacooba/hyper.
- Abstract(参考訳): 強化学習(RL)の中核的な野望は、新しいタスクで迅速に学習できるエージェントを作ることである。
Meta-RLはこのようなエージェントを直接学習することでこれを実現する。
ブラックボックスメソッドは、オフザシェルフシーケンスモデルをエンドツーエンドでトレーニングすることで実現している。
対照的に、タスク推論手法は、通常、タスク推論を可能にするように設計された異なる目的とシーケンスモデルを用いて、未知のタスク上の後続分布を明示的に推論する。
近年の研究では、タスク推論手法は高い性能には必要ないことが示されている。
しかし,タスク推論対象がそうでない場合でも,タスク推論シーケンスモデルが有用かどうかは不明である。
本稿では,タスク推論シーケンスモデルが依然として有用であることを示す。
特に、マルコフ特性により、タスク後続がデータの順序に依存しないという事実を生かして、置換不変なアグリゲーションを持つシーケンスモデルについて検討する。
タスク推論目的を使わずに、置換不変配列モデルの利点を実証的に確認する。
しかし、驚くべきことに、置換分散が有用である条件が複数存在することも判明した。
そこで,SplAggerを提案する。このSplAggerは,連続制御およびメモリ環境において評価されたすべてのベースラインより優れ,両世界の長所を達成するために,置換変種と不変成分の両方を用いる。
コードはhttps://github.com/jacooba/hyper.comで提供されている。
関連論文リスト
- Task-recency bias strikes back: Adapting covariances in Exemplar-Free Class Incremental Learning [0.3281128493853064]
過去のデータにアクセスせずにタスクのシーケンス上でモデルをトレーニングする問題に対処する。
既存の方法は、特徴抽出器の潜在空間におけるガウス分布としてクラスを表す。
本稿では,タスクからタスクへ共分散行列を適用する新しい手法であるAdaGaussを提案する。
論文 参考訳(メタデータ) (2024-09-26T20:18:14Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - DORE: Document Ordered Relation Extraction based on Generative Framework [56.537386636819626]
本稿では,既存のDocREモデルの根本原因について検討する。
本稿では,モデルが学習しやすく,決定論的な関係行列から記号列と順序列を生成することを提案する。
4つのデータセットに対する実験結果から,提案手法は生成型DocREモデルの性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2022-10-28T11:18:10Z) - MetaKernel: Learning Variational Random Features with Limited Labels [120.90737681252594]
少数の注釈付きサンプルから学習し、新しいタスクでうまく一般化できるという根本的かつ困難な問題に、少数のショットラーニングが対処します。
マルチショット学習のためのランダムなフーリエ機能を備えたメタラーニングカーネルをMeta Kernelと呼びます。
論文 参考訳(メタデータ) (2021-05-08T21:24:09Z) - Meta-Regularization by Enforcing Mutual-Exclusiveness [0.8057006406834467]
本稿では,メタ学習時の情報フローをモデル設計者が制御できるように,メタ学習モデルの正規化手法を提案する。
提案した正規化関数は,Omniglotデータセット上で$sim$$36%の精度向上を示す。
論文 参考訳(メタデータ) (2021-01-24T22:57:19Z) - Lifelong Learning Without a Task Oracle [13.331659934508764]
監視されたディープニューラルネットワークは、新しいタスクが学習されると、古いタスクの精度が大幅に低下することが知られている。
本稿では,メモリオーバーヘッドの少ないタスク割り当てマップの提案と比較を行う。
最高のパフォーマンスの変種は、平均的なパラメータメモリの増大を1.7%に抑えるだけである。
論文 参考訳(メタデータ) (2020-11-09T21:30:31Z) - A Markov Decision Process Approach to Active Meta Learning [24.50189361694407]
教師付き学習では、データが特定のタスクに関連付けられていると仮定して、与えられたデータセットに1つの統計モデルを適用する。
メタラーニングでは、データは多数のタスクと関連付けられており、同時に全てのタスクでうまく機能するモデルを模索する。
論文 参考訳(メタデータ) (2020-09-10T15:45:34Z) - Task-similarity Aware Meta-learning through Nonparametric Kernel
Regression [8.801367758434335]
本稿では,非パラメトリックカーネル回帰を用いたタスク類似性を考慮したメタ学習アルゴリズムを提案する。
我々の仮説は、相似性の使用は、利用可能なタスクが限られており、不整合/相似タスクを含む場合、メタラーニングに役立つというものである。
論文 参考訳(メタデータ) (2020-06-12T14:15:11Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。