Fugu-MT 論文翻訳(概要): SplAgger: Split Aggregation for Meta-Reinforcement Learning

論文の概要: SplAgger: Split Aggregation for Meta-Reinforcement Learning

arxiv url: http://arxiv.org/abs/2403.03020v2
Date: Fri, 8 Mar 2024 14:51:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-11 10:52:52.336149
Title: SplAgger: Split Aggregation for Meta-Reinforcement Learning
Title（参考訳）: SplAgger: メタ強化学習のための分割集約
Authors: Jacob Beck, Matthew Jackson, Risto Vuorio, Zheng Xiong, Shimon Whiteson
Abstract要約: ブラックボックスメソッドは、オフザシェルフシーケンスモデルをエンドツーエンドでトレーニングすることで実現している。タスク推論メソッドは、未知のタスク上の後方分布を明示的に推論する。近年の研究では、タスク推論シーケンスモデルは高いパフォーマンスには必要ないことが示されている。
参考スコア（独自算出の注目度）: 34.60649307992502
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A core ambition of reinforcement learning (RL) is the creation of agents capable of rapid learning in novel tasks. Meta-RL aims to achieve this by directly learning such agents. Black box methods do so by training off-the-shelf sequence models end-to-end. By contrast, task inference methods explicitly infer a posterior distribution over the unknown task, typically using distinct objectives and sequence models designed to enable task inference. Recent work has shown that task inference methods are not necessary for strong performance. However, it remains unclear whether task inference sequence models are beneficial even when task inference objectives are not. In this paper, we present strong evidence that task inference sequence models are still beneficial. In particular, we investigate sequence models with permutation invariant aggregation, which exploit the fact that, due to the Markov property, the task posterior does not depend on the order of data. We empirically confirm the advantage of permutation invariant sequence models without the use of task inference objectives. However, we also find, surprisingly, that there are multiple conditions under which permutation variance remains useful. Therefore, we propose SplAgger, which uses both permutation variant and invariant components to achieve the best of both worlds, outperforming all baselines on continuous control and memory environments.
Abstract（参考訳）: 強化学習(RL)の中核的な野望は、新しいタスクで迅速に学習できるエージェントを作ることである。 Meta-RLはこのようなエージェントを直接学習することでこれを実現する。 black boxメソッドは、市販のシーケンスモデルをエンドツーエンドでトレーニングする。対照的に、タスク推論法は未知のタスク上での後方分布を明示的に推論し、タスク推論を可能にするために設計された異なる目的とシーケンスモデルを使用する。近年の研究では、タスク推論手法は高い性能には必要ないことが示されている。しかし,タスク推論対象がそうでない場合でも,タスク推論シーケンスモデルが有用かどうかは不明である。本稿では,タスク推論シーケンスモデルが依然として有益であることを示す。特に,マルコフ特性により後段のタスクがデータの順序に依存しないという事実を生かして,置換不変なアグリゲーションを持つシーケンスモデルについて検討する。我々はタスク推論の目的を使わずに置換不変数列モデルの利点を実証的に確認する。しかし、驚くべきことに、置換分散が有用である条件が複数存在することも判明した。そこで本研究では,両世界の最善を達成するために置換変分成分と不変成分の両方を用いて,連続制御とメモリ環境において,すべてのベースラインを上回っているsplaggerを提案する。

関連論文リスト

Intention-Conditioned Flow Occupancy Models [69.79049994662591]
大規模な事前学習は、今日の機械学習研究のやり方を根本的に変えた。同じフレームワークを強化学習に適用することは、RLの中核的な課題に対処するための魅力的な方法を提供するので、魅力的です。生成AIの最近の進歩は、高度に複雑な分布をモデリングするための新しいツールを提供している。
論文参考訳（メタデータ） (2025-06-10T15:27:46Z)
Train with Perturbation, Infer after Merging: A Two-Stage Framework for Continual Learning [57.514786046966265]
textbfPerturb-and-Merge(P&M)は,モデルマージをCLパラダイムに統合し,忘れを緩和する新しい連続学習フレームワークである。提案手法は,複数の連続学習ベンチマークデータセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2025-05-28T14:14:19Z)
Task-conditioned Ensemble of Expert Models for Continuous Learning [9.973727349235261]
既存のモデルの性能を維持するために,タスク条件付きモデルアンサンブルを提案する。この方法は、タスクメンバーシップ情報に基づくエキスパートモデルのアンサンブルを含む。実験は提案手法の利点を浮き彫りにする。
論文参考訳（メタデータ） (2025-04-11T15:27:29Z)
Multi-Task Model Merging via Adaptive Weight Disentanglement [69.7292615212444]
モデルマージのための適応重み分散法を提案する。余剰ベクトルの抽出に成功し, 減算後, タスクベクトルは頑健な性能を維持した。
論文参考訳（メタデータ） (2024-11-27T20:08:55Z)
Task-recency bias strikes back: Adapting covariances in Exemplar-Free Class Incremental Learning [0.3281128493853064]
過去のデータにアクセスせずにタスクのシーケンス上でモデルをトレーニングする問題に対処する。既存の方法は、特徴抽出器の潜在空間におけるガウス分布としてクラスを表す。本稿では,タスクからタスクへ共分散行列を適用する新しい手法であるAdaGaussを提案する。
論文参考訳（メタデータ） (2024-09-26T20:18:14Z)
AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。 AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文参考訳（メタデータ） (2023-10-04T04:26:33Z)
Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。モデルに基づくベイズ強化学習の観点から問題を考察する。本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文参考訳（メタデータ） (2023-08-12T14:59:19Z)
SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文参考訳（メタデータ） (2023-06-08T17:59:58Z)
DORE: Document Ordered Relation Extraction based on Generative Framework [56.537386636819626]
本稿では,既存のDocREモデルの根本原因について検討する。本稿では,モデルが学習しやすく,決定論的な関係行列から記号列と順序列を生成することを提案する。 4つのデータセットに対する実験結果から,提案手法は生成型DocREモデルの性能を向上させることができることが示された。
論文参考訳（メタデータ） (2022-10-28T11:18:10Z)
MetaKernel: Learning Variational Random Features with Limited Labels [120.90737681252594]
少数の注釈付きサンプルから学習し、新しいタスクでうまく一般化できるという根本的かつ困難な問題に、少数のショットラーニングが対処します。マルチショット学習のためのランダムなフーリエ機能を備えたメタラーニングカーネルをMeta Kernelと呼びます。
論文参考訳（メタデータ） (2021-05-08T21:24:09Z)
Meta-Regularization by Enforcing Mutual-Exclusiveness [0.8057006406834467]
本稿では,メタ学習時の情報フローをモデル設計者が制御できるように,メタ学習モデルの正規化手法を提案する。提案した正規化関数は,Omniglotデータセット上で$sim$$36%の精度向上を示す。
論文参考訳（メタデータ） (2021-01-24T22:57:19Z)
Lifelong Learning Without a Task Oracle [13.331659934508764]
監視されたディープニューラルネットワークは、新しいタスクが学習されると、古いタスクの精度が大幅に低下することが知られている。本稿では,メモリオーバーヘッドの少ないタスク割り当てマップの提案と比較を行う。最高のパフォーマンスの変種は、平均的なパラメータメモリの増大を1.7%に抑えるだけである。
論文参考訳（メタデータ） (2020-11-09T21:30:31Z)
A Markov Decision Process Approach to Active Meta Learning [24.50189361694407]
教師付き学習では、データが特定のタスクに関連付けられていると仮定して、与えられたデータセットに1つの統計モデルを適用する。メタラーニングでは、データは多数のタスクと関連付けられており、同時に全てのタスクでうまく機能するモデルを模索する。
論文参考訳（メタデータ） (2020-09-10T15:45:34Z)
Task-similarity Aware Meta-learning through Nonparametric Kernel Regression [8.801367758434335]
本稿では,非パラメトリックカーネル回帰を用いたタスク類似性を考慮したメタ学習アルゴリズムを提案する。我々の仮説は、相似性の使用は、利用可能なタスクが限られており、不整合/相似タスクを含む場合、メタラーニングに役立つというものである。
論文参考訳（メタデータ） (2020-06-12T14:15:11Z)
Meta Reinforcement Learning with Autonomous Inference of Subtask Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文参考訳（メタデータ） (2020-01-01T17:34:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。