論文の概要: Bayesian Meta-Reinforcement Learning with Laplace Variational Recurrent Networks
- arxiv url: http://arxiv.org/abs/2505.18591v1
- Date: Sat, 24 May 2025 08:38:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.52677
- Title: Bayesian Meta-Reinforcement Learning with Laplace Variational Recurrent Networks
- Title(参考訳): Laplace Variational Recurrent Networks を用いたベイズ的メタ強化学習
- Authors: Joery A. de Vries, Jinke He, Mathijs M. de Weerdt, Matthijs T. J. Spaan,
- Abstract要約: 基本モデルアーキテクチャを変更することなく、ポイント推定を拡大して完全な分布を与える方法を示す。
本手法は,パラメータの少ない変分ベースラインと同等に動作する。
- 参考スコア(独自算出の注目度): 8.73717644648873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Meta-reinforcement learning trains a single reinforcement learning agent on a distribution of tasks to quickly generalize to new tasks outside of the training set at test time. From a Bayesian perspective, one can interpret this as performing amortized variational inference on the posterior distribution over training tasks. Among the various meta-reinforcement learning approaches, a common method is to represent this distribution with a point-estimate using a recurrent neural network. We show how one can augment this point estimate to give full distributions through the Laplace approximation, either at the start of, during, or after learning, without modifying the base model architecture. With our approximation, we are able to estimate distribution statistics (e.g., the entropy) of non-Bayesian agents and observe that point-estimate based methods produce overconfident estimators while not satisfying consistency. Furthermore, when comparing our approach to full-distribution based learning of the task posterior, our method performs on par with variational baselines while having much fewer parameters.
- Abstract(参考訳): メタ強化学習は、単一の強化学習エージェントをタスクの分布で訓練し、テスト時に設定されたトレーニング外のタスクに迅速に一般化する。
ベイズの観点からは、これはトレーニングタスクよりも後部分布について、償却変分推論を行うものとして解釈できる。
様々なメタ強化学習手法の中で、この分布を再帰的ニューラルネットワークを用いて点推定で表すのが一般的な方法である。
ベースモデルアーキテクチャを変更することなく、この点の見積もりを拡大して、Laplace近似を通じて、開始時、中、または学習後の完全な分布を与える方法を示します。
近似を用いて、非ベイズエージェントの分布統計(例えばエントロピー)を推定し、点推定に基づく手法が整合性を満たすことなく過信推定器を生成することを観察することができる。
さらに,本手法をタスク後処理の完全分布に基づく学習と比較した場合,パラメータの少ない変分ベースラインと同等に動作させる。
関連論文リスト
- Implicit Variational Inference for High-Dimensional Posteriors [7.924706533725115]
変分推論において、ベイズモデルの利点は、真の後続分布を正確に捉えることに依存する。
複雑な多重モーダルおよび相関後部を近似するのに適した暗黙分布を特定するニューラルサンプリング手法を提案する。
提案手法では,ニューラルネットワークを局所的に線形化することにより,暗黙分布を用いた近似推論の新たなバウンダリを導入する。
論文 参考訳(メタデータ) (2023-10-10T14:06:56Z) - Variational Density Propagation Continual Learning [0.0]
現実世界にデプロイされるディープニューラルネットワーク(DNN)は、定期的にオフ・オブ・ディストリビューション(OoD)データの対象となっている。
本稿では,ベンチマーク連続学習データセットによってモデル化されたデータ分散ドリフトに適応するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-22T21:51:39Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Semantic Self-adaptation: Enhancing Generalization with a Single Sample [45.111358665370524]
セマンティックセグメンテーションのための自己適応型アプローチを提案する。
整合正則化を用いて畳み込み層のパラメータを入力画像に微調整する。
実験により, 自己適応は訓練時のモデル正規化の確立した実践を補完する可能性が示唆された。
論文 参考訳(メタデータ) (2022-08-10T12:29:01Z) - On Generalizing Beyond Domains in Cross-Domain Continual Learning [91.56748415975683]
ディープニューラルネットワークは、新しいタスクを学んだ後、これまで学んだ知識の破滅的な忘れ込みに悩まされることが多い。
提案手法は、ドメインシフト中の新しいタスクを精度良く学習することで、DomainNetやOfficeHomeといった挑戦的なデータセットで最大10%向上する。
論文 参考訳(メタデータ) (2022-03-08T09:57:48Z) - Distributional Reinforcement Learning via Moment Matching [54.16108052278444]
ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。
我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。
Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-07-24T05:18:17Z) - Covariate Distribution Aware Meta-learning [3.494950334697974]
本稿では,有意義な緩和を導入することで,計算可能なメタ学習アルゴリズムを提案する。
一般的な分類ベンチマークに基づいて,ブートストラップによるメタラーニングベースラインに対するアルゴリズムの優位性を実証する。
論文 参考訳(メタデータ) (2020-07-06T05:00:13Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z) - A Distributional Analysis of Sampling-Based Reinforcement Learning
Algorithms [67.67377846416106]
定常ステップサイズに対する強化学習アルゴリズムの理論解析に対する分布的アプローチを提案する。
本稿では,TD($lambda$)や$Q$-Learningのような値ベースの手法が,関数の分布空間で制約のある更新ルールを持つことを示す。
論文 参考訳(メタデータ) (2020-03-27T05:13:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。