論文の概要: Meta Learning MDPs with Linear Transition Models
- arxiv url: http://arxiv.org/abs/2201.08732v1
- Date: Fri, 21 Jan 2022 14:57:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-24 14:16:23.706693
- Title: Meta Learning MDPs with Linear Transition Models
- Title(参考訳): 線形遷移モデルを用いたメタ学習MDP
- Authors: Robert M\"uller and Aldo Pacchiano
- Abstract要約: マルコフ決定過程 (MDP) におけるメタラーニングについて, 線形遷移モデルを用いて検討した。
本稿では,UC-Matrix RLアルゴリズムのバージョンであるBUC-MatrixRLを提案する。
BUC-Matrix RLは,タスクを個別に学習するのに比べて,高バイアス低分散タスク分布に対する伝達後悔の大幅な改善を提供する。
- 参考スコア(独自算出の注目度): 22.508479528847634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study meta-learning in Markov Decision Processes (MDP) with linear
transition models in the undiscounted episodic setting. Under a task sharedness
metric based on model proximity we study task families characterized by a
distribution over models specified by a bias term and a variance component. We
then propose BUC-MatrixRL, a version of the UC-Matrix RL algorithm, and show it
can meaningfully leverage a set of sampled training tasks to quickly solve a
test task sampled from the same task distribution by learning an estimator of
the bias parameter of the task distribution. The analysis leverages and extends
results in the learning to learn linear regression and linear bandit setting to
the more general case of MDP's with linear transition models. We prove that
compared to learning the tasks in isolation, BUC-Matrix RL provides significant
improvements in the transfer regret for high bias low variance task
distributions.
- Abstract(参考訳): マルコフ決定過程 (MDP) におけるメタラーニングについて, 線形遷移モデルを用いて検討した。
モデル近接度に基づくタスク共有度測定では、バイアス項と分散成分によって指定されたモデル上の分布を特徴付けるタスクファミリーについて検討する。
次に、UC-Matrix RLアルゴリズムのバージョンであるBUC-MatrixRLを提案し、サンプル化されたトレーニングタスクのセットを有意に活用して、同じタスク分布からサンプリングされたテストタスクを、タスク分布のバイアスパラメータの推定器を学習することにより、迅速に解決できることを示す。
この分析は、線形回帰と線形バンディット設定を線形遷移モデルを用いたMDPのより一般的なケースに学習する学習の成果を生かし、拡張する。
BUC-Matrix RLは,タスクを個別に学習するよりも,高バイアス低分散タスク分布に対する伝達後悔の大幅な改善を提供する。
関連論文リスト
- Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。
線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文 参考訳(メタデータ) (2023-10-12T15:01:43Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Reinforcement Learning in the Wild with Maximum Likelihood-based Model
Transfer [5.92353064090273]
マルコフ決定過程 (MDP) モデルを未知の, 類似のMDPで効率的に学習し, 計画する問題について検討する。
離散的かつ連続的な設定で MTRL 問題に対処する汎用二段階アルゴリズム MLEMTRL を提案する。
我々は,MLEMTRLがスクラッチから学習するよりも新しいMDPの学習を高速化し,ほぼ最適性能を実現することを実証的に実証した。
論文 参考訳(メタデータ) (2023-02-18T09:47:34Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - The Common Intuition to Transfer Learning Can Win or Lose: Case Studies for Linear Regression [26.5147705530439]
本稿では,学習対象パラメータと学習対象パラメータとの距離を正規化した線形回帰最適化として,対象タスクへの伝達学習アプローチを定義する。
十分関連するタスクに対して、最適に調整された転送学習手法が最適に調整されたリッジ回帰法より優れていることを示す。
論文 参考訳(メタデータ) (2021-03-09T18:46:01Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z) - PAC-Bayes meta-learning with implicit task-specific posteriors [37.32107678838193]
そこで本研究では,PAC-Bayesメタ学習アルゴリズムを提案する。
提案したメタ学習アルゴリズムを用いてトレーニングしたモデルは、精度よく校正されていることを示す。
論文 参考訳(メタデータ) (2020-03-05T06:56:19Z) - Plannable Approximations to MDP Homomorphisms: Equivariance under
Actions [72.30921397899684]
学習した表現に作用同値を強制する対照的な損失関数を導入する。
損失が 0 であるとき、決定論的マルコフ決定過程の準同型が存在することを証明している。
本研究では, 決定論的MDPに対して, 抽象MDPの最適方針を元のMDPに引き上げることに成功した。
論文 参考訳(メタデータ) (2020-02-27T08:29:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。