Fugu-MT 論文翻訳(概要): SplAgger: Split Aggregation for Meta-Reinforcement Learning

論文の概要: SplAgger: Split Aggregation for Meta-Reinforcement Learning

arxiv url: http://arxiv.org/abs/2403.03020v1
Date: Tue, 5 Mar 2024 14:57:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 14:31:34.852327
Title: SplAgger: Split Aggregation for Meta-Reinforcement Learning
Title（参考訳）: SplAgger: メタ強化学習のための分割集約
Authors: Jacob Beck, Matthew Jackson, Risto Vuorio, Zheng Xiong, Shimon Whiteson
Abstract要約: 強化学習(Reinforcement Learning, RL)は、新しいタスクにおいて迅速な学習が可能なエージェントを作成することを目的としている。ブラックボックス法(ブラックボックス法)と呼ばれるメタRL法の一つのカテゴリは、オフザシェルフシーケンスモデルをエンドツーエンドにトレーニングすることで実現している。未知のタスクに対する後続分布を明示的に推測する手法も開発されている。最近の証拠は、実際にはタスク推論の目的は不要であることを示している。
参考スコア（独自算出の注目度）: 34.60649307992502
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A core ambition of reinforcement learning (RL) is the creation of agents capable of rapid learning in novel tasks. Meta-RL aims to achieve this by directly learning such agents. One category of meta-RL methods, called black box methods, does so by training off-the-shelf sequence models end-to-end. In contrast, another category of methods have been developed that explicitly infer a posterior distribution over the unknown task. These methods generally have distinct objectives and sequence models designed to enable task inference, and so are known as task inference methods. However, recent evidence suggests that task inference objectives are unnecessary in practice. Nonetheless, it remains unclear whether task inference sequence models are beneficial even when task inference objectives are not. In this paper, we present strong evidence that task inference sequence models are still beneficial. In particular, we investigate sequence models with permutation invariant aggregation, which exploit the fact that, due to the Markov property, the task posterior does not depend on the order of data. We empirically confirm the advantage of permutation invariant sequence models without the use of task inference objectives. However, we also find, surprisingly, that there are multiple conditions under which permutation variance remains useful. Therefore, we propose SplAgger, which uses both permutation variant and invariant components to achieve the best of both worlds, outperforming all baselines on continuous control and memory environments.
Abstract（参考訳）: 強化学習(RL)の中核的な野望は、新しいタスクで迅速に学習できるエージェントを作ることである。 Meta-RLはこのようなエージェントを直接学習することでこれを実現する。ブラックボックス法(ブラックボックス法)と呼ばれるメタRL法の一つのカテゴリは、オフザシェルフシーケンスモデルをエンドツーエンドにトレーニングすることで実現している。対照的に、未知のタスクに対する後続分布を明示的に推測する手法の別のカテゴリが開発されている。これらのメソッドはタスク推論を可能にするために設計された異なる目的とシーケンスモデルを持ち、タスク推論メソッドとして知られている。しかし、近年の証拠は、実際にはタスク推論の目的は不要であることを示している。それでも,タスク推論対象がそうでない場合でも,タスク推論シーケンスモデルが有用かどうかは不明である。本稿では,タスク推論シーケンスモデルが依然として有益であることを示す。特に,マルコフ特性により後段のタスクがデータの順序に依存しないという事実を生かして,置換不変なアグリゲーションを持つシーケンスモデルについて検討する。我々はタスク推論の目的を使わずに置換不変数列モデルの利点を実証的に確認する。しかし、驚くべきことに、置換分散が有用である条件が複数存在することも判明した。そこで本研究では,両世界の最善を達成するために置換変分成分と不変成分の両方を用いて,連続制御とメモリ環境において,すべてのベースラインを上回っているsplaggerを提案する。

関連論文リスト

Intention-Conditioned Flow Occupancy Models [69.79049994662591]
大規模な事前学習は、今日の機械学習研究のやり方を根本的に変えた。同じフレームワークを強化学習に適用することは、RLの中核的な課題に対処するための魅力的な方法を提供するので、魅力的です。生成AIの最近の進歩は、高度に複雑な分布をモデリングするための新しいツールを提供している。
論文参考訳（メタデータ） (2025-06-10T15:27:46Z)
Task-conditioned Ensemble of Expert Models for Continuous Learning [9.973727349235261]
既存のモデルの性能を維持するために,タスク条件付きモデルアンサンブルを提案する。この方法は、タスクメンバーシップ情報に基づくエキスパートモデルのアンサンブルを含む。実験は提案手法の利点を浮き彫りにする。
論文参考訳（メタデータ） (2025-04-11T15:27:29Z)
Multi-Task Model Merging via Adaptive Weight Disentanglement [69.7292615212444]
モデルマージのための適応重み分散法を提案する。余剰ベクトルの抽出に成功し, 減算後, タスクベクトルは頑健な性能を維持した。
論文参考訳（メタデータ） (2024-11-27T20:08:55Z)
Task-recency bias strikes back: Adapting covariances in Exemplar-Free Class Incremental Learning [0.3281128493853064]
過去のデータにアクセスせずにタスクのシーケンス上でモデルをトレーニングする問題に対処する。既存の方法は、特徴抽出器の潜在空間におけるガウス分布としてクラスを表す。本稿では,タスクからタスクへ共分散行列を適用する新しい手法であるAdaGaussを提案する。
論文参考訳（メタデータ） (2024-09-26T20:18:14Z)
AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。 AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文参考訳（メタデータ） (2023-10-04T04:26:33Z)
Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。モデルに基づくベイズ強化学習の観点から問題を考察する。本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文参考訳（メタデータ） (2023-08-12T14:59:19Z)
SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文参考訳（メタデータ） (2023-06-08T17:59:58Z)
DORE: Document Ordered Relation Extraction based on Generative Framework [56.537386636819626]
本稿では,既存のDocREモデルの根本原因について検討する。本稿では,モデルが学習しやすく,決定論的な関係行列から記号列と順序列を生成することを提案する。 4つのデータセットに対する実験結果から,提案手法は生成型DocREモデルの性能を向上させることができることが示された。
論文参考訳（メタデータ） (2022-10-28T11:18:10Z)
MetaKernel: Learning Variational Random Features with Limited Labels [120.90737681252594]
少数の注釈付きサンプルから学習し、新しいタスクでうまく一般化できるという根本的かつ困難な問題に、少数のショットラーニングが対処します。マルチショット学習のためのランダムなフーリエ機能を備えたメタラーニングカーネルをMeta Kernelと呼びます。
論文参考訳（メタデータ） (2021-05-08T21:24:09Z)
Meta-Regularization by Enforcing Mutual-Exclusiveness [0.8057006406834467]
本稿では,メタ学習時の情報フローをモデル設計者が制御できるように,メタ学習モデルの正規化手法を提案する。提案した正規化関数は,Omniglotデータセット上で$sim$$36%の精度向上を示す。
論文参考訳（メタデータ） (2021-01-24T22:57:19Z)
Lifelong Learning Without a Task Oracle [13.331659934508764]
監視されたディープニューラルネットワークは、新しいタスクが学習されると、古いタスクの精度が大幅に低下することが知られている。本稿では,メモリオーバーヘッドの少ないタスク割り当てマップの提案と比較を行う。最高のパフォーマンスの変種は、平均的なパラメータメモリの増大を1.7%に抑えるだけである。
論文参考訳（メタデータ） (2020-11-09T21:30:31Z)
A Markov Decision Process Approach to Active Meta Learning [24.50189361694407]
教師付き学習では、データが特定のタスクに関連付けられていると仮定して、与えられたデータセットに1つの統計モデルを適用する。メタラーニングでは、データは多数のタスクと関連付けられており、同時に全てのタスクでうまく機能するモデルを模索する。
論文参考訳（メタデータ） (2020-09-10T15:45:34Z)
Task-similarity Aware Meta-learning through Nonparametric Kernel Regression [8.801367758434335]
本稿では,非パラメトリックカーネル回帰を用いたタスク類似性を考慮したメタ学習アルゴリズムを提案する。我々の仮説は、相似性の使用は、利用可能なタスクが限られており、不整合/相似タスクを含む場合、メタラーニングに役立つというものである。
論文参考訳（メタデータ） (2020-06-12T14:15:11Z)
Meta Reinforcement Learning with Autonomous Inference of Subtask Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文参考訳（メタデータ） (2020-01-01T17:34:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。