論文の概要: SplAgger: Split Aggregation for Meta-Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2403.03020v1
- Date: Tue, 5 Mar 2024 14:57:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 14:31:34.852327
- Title: SplAgger: Split Aggregation for Meta-Reinforcement Learning
- Title(参考訳): SplAgger: メタ強化学習のための分割集約
- Authors: Jacob Beck, Matthew Jackson, Risto Vuorio, Zheng Xiong, Shimon
Whiteson
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、新しいタスクにおいて迅速な学習が可能なエージェントを作成することを目的としている。
ブラックボックス法(ブラックボックス法)と呼ばれるメタRL法の一つのカテゴリは、オフザシェルフシーケンスモデルをエンドツーエンドにトレーニングすることで実現している。
未知のタスクに対する後続分布を明示的に推測する手法も開発されている。
最近の証拠は、実際にはタスク推論の目的は不要であることを示している。
- 参考スコア(独自算出の注目度): 34.60649307992502
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A core ambition of reinforcement learning (RL) is the creation of agents
capable of rapid learning in novel tasks. Meta-RL aims to achieve this by
directly learning such agents. One category of meta-RL methods, called black
box methods, does so by training off-the-shelf sequence models end-to-end. In
contrast, another category of methods have been developed that explicitly infer
a posterior distribution over the unknown task. These methods generally have
distinct objectives and sequence models designed to enable task inference, and
so are known as task inference methods. However, recent evidence suggests that
task inference objectives are unnecessary in practice. Nonetheless, it remains
unclear whether task inference sequence models are beneficial even when task
inference objectives are not. In this paper, we present strong evidence that
task inference sequence models are still beneficial. In particular, we
investigate sequence models with permutation invariant aggregation, which
exploit the fact that, due to the Markov property, the task posterior does not
depend on the order of data. We empirically confirm the advantage of
permutation invariant sequence models without the use of task inference
objectives. However, we also find, surprisingly, that there are multiple
conditions under which permutation variance remains useful. Therefore, we
propose SplAgger, which uses both permutation variant and invariant components
to achieve the best of both worlds, outperforming all baselines on continuous
control and memory environments.
- Abstract(参考訳): 強化学習(RL)の中核的な野望は、新しいタスクで迅速に学習できるエージェントを作ることである。
Meta-RLはこのようなエージェントを直接学習することでこれを実現する。
ブラックボックス法(ブラックボックス法)と呼ばれるメタRL法の一つのカテゴリは、オフザシェルフシーケンスモデルをエンドツーエンドにトレーニングすることで実現している。
対照的に、未知のタスクに対する後続分布を明示的に推測する手法の別のカテゴリが開発されている。
これらのメソッドはタスク推論を可能にするために設計された異なる目的とシーケンスモデルを持ち、タスク推論メソッドとして知られている。
しかし、近年の証拠は、実際にはタスク推論の目的は不要であることを示している。
それでも,タスク推論対象がそうでない場合でも,タスク推論シーケンスモデルが有用かどうかは不明である。
本稿では,タスク推論シーケンスモデルが依然として有益であることを示す。
特に,マルコフ特性により後段のタスクがデータの順序に依存しないという事実を生かして,置換不変なアグリゲーションを持つシーケンスモデルについて検討する。
我々はタスク推論の目的を使わずに置換不変数列モデルの利点を実証的に確認する。
しかし、驚くべきことに、置換分散が有用である条件が複数存在することも判明した。
そこで本研究では,両世界の最善を達成するために置換変分成分と不変成分の両方を用いて,連続制御とメモリ環境において,すべてのベースラインを上回っているsplaggerを提案する。
関連論文リスト
- Task-recency bias strikes back: Adapting covariances in Exemplar-Free Class Incremental Learning [0.3281128493853064]
過去のデータにアクセスせずにタスクのシーケンス上でモデルをトレーニングする問題に対処する。
既存の方法は、特徴抽出器の潜在空間におけるガウス分布としてクラスを表す。
本稿では,タスクからタスクへ共分散行列を適用する新しい手法であるAdaGaussを提案する。
論文 参考訳(メタデータ) (2024-09-26T20:18:14Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - DORE: Document Ordered Relation Extraction based on Generative Framework [56.537386636819626]
本稿では,既存のDocREモデルの根本原因について検討する。
本稿では,モデルが学習しやすく,決定論的な関係行列から記号列と順序列を生成することを提案する。
4つのデータセットに対する実験結果から,提案手法は生成型DocREモデルの性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2022-10-28T11:18:10Z) - MetaKernel: Learning Variational Random Features with Limited Labels [120.90737681252594]
少数の注釈付きサンプルから学習し、新しいタスクでうまく一般化できるという根本的かつ困難な問題に、少数のショットラーニングが対処します。
マルチショット学習のためのランダムなフーリエ機能を備えたメタラーニングカーネルをMeta Kernelと呼びます。
論文 参考訳(メタデータ) (2021-05-08T21:24:09Z) - Meta-Regularization by Enforcing Mutual-Exclusiveness [0.8057006406834467]
本稿では,メタ学習時の情報フローをモデル設計者が制御できるように,メタ学習モデルの正規化手法を提案する。
提案した正規化関数は,Omniglotデータセット上で$sim$$36%の精度向上を示す。
論文 参考訳(メタデータ) (2021-01-24T22:57:19Z) - Lifelong Learning Without a Task Oracle [13.331659934508764]
監視されたディープニューラルネットワークは、新しいタスクが学習されると、古いタスクの精度が大幅に低下することが知られている。
本稿では,メモリオーバーヘッドの少ないタスク割り当てマップの提案と比較を行う。
最高のパフォーマンスの変種は、平均的なパラメータメモリの増大を1.7%に抑えるだけである。
論文 参考訳(メタデータ) (2020-11-09T21:30:31Z) - A Markov Decision Process Approach to Active Meta Learning [24.50189361694407]
教師付き学習では、データが特定のタスクに関連付けられていると仮定して、与えられたデータセットに1つの統計モデルを適用する。
メタラーニングでは、データは多数のタスクと関連付けられており、同時に全てのタスクでうまく機能するモデルを模索する。
論文 参考訳(メタデータ) (2020-09-10T15:45:34Z) - Task-similarity Aware Meta-learning through Nonparametric Kernel
Regression [8.801367758434335]
本稿では,非パラメトリックカーネル回帰を用いたタスク類似性を考慮したメタ学習アルゴリズムを提案する。
我々の仮説は、相似性の使用は、利用可能なタスクが限られており、不整合/相似タスクを含む場合、メタラーニングに役立つというものである。
論文 参考訳(メタデータ) (2020-06-12T14:15:11Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。