Fugu-MT 論文翻訳(概要): Bayesian Meta-Reinforcement Learning with Laplace Variational Recurrent Networks

論文の概要: Bayesian Meta-Reinforcement Learning with Laplace Variational Recurrent Networks

arxiv url: http://arxiv.org/abs/2505.18591v1
Date: Sat, 24 May 2025 08:38:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 16:58:42.52677
Title: Bayesian Meta-Reinforcement Learning with Laplace Variational Recurrent Networks
Title（参考訳）: Laplace Variational Recurrent Networks を用いたベイズ的メタ強化学習
Authors: Joery A. de Vries, Jinke He, Mathijs M. de Weerdt, Matthijs T. J. Spaan,
Abstract要約: 基本モデルアーキテクチャを変更することなく、ポイント推定を拡大して完全な分布を与える方法を示す。本手法は,パラメータの少ない変分ベースラインと同等に動作する。
参考スコア（独自算出の注目度）: 8.73717644648873
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Meta-reinforcement learning trains a single reinforcement learning agent on a distribution of tasks to quickly generalize to new tasks outside of the training set at test time. From a Bayesian perspective, one can interpret this as performing amortized variational inference on the posterior distribution over training tasks. Among the various meta-reinforcement learning approaches, a common method is to represent this distribution with a point-estimate using a recurrent neural network. We show how one can augment this point estimate to give full distributions through the Laplace approximation, either at the start of, during, or after learning, without modifying the base model architecture. With our approximation, we are able to estimate distribution statistics (e.g., the entropy) of non-Bayesian agents and observe that point-estimate based methods produce overconfident estimators while not satisfying consistency. Furthermore, when comparing our approach to full-distribution based learning of the task posterior, our method performs on par with variational baselines while having much fewer parameters.
Abstract（参考訳）: メタ強化学習は、単一の強化学習エージェントをタスクの分布で訓練し、テスト時に設定されたトレーニング外のタスクに迅速に一般化する。ベイズの観点からは、これはトレーニングタスクよりも後部分布について、償却変分推論を行うものとして解釈できる。様々なメタ強化学習手法の中で、この分布を再帰的ニューラルネットワークを用いて点推定で表すのが一般的な方法である。ベースモデルアーキテクチャを変更することなく、この点の見積もりを拡大して、Laplace近似を通じて、開始時、中、または学習後の完全な分布を与える方法を示します。近似を用いて、非ベイズエージェントの分布統計(例えばエントロピー)を推定し、点推定に基づく手法が整合性を満たすことなく過信推定器を生成することを観察することができる。さらに,本手法をタスク後処理の完全分布に基づく学習と比較した場合,パラメータの少ない変分ベースラインと同等に動作させる。

関連論文リスト

Collaborative Heterogeneous Causal Inference Beyond Meta-analysis [68.4474531911361]
異種データを用いた因果推論のための協調的逆確率スコア推定器を提案する。異質性の増加に伴うメタアナリシスに基づく手法に対して,本手法は有意な改善を示した。
論文参考訳（メタデータ） (2024-04-24T09:04:36Z)
Implicit Variational Inference for High-Dimensional Posteriors [7.924706533725115]
変分推論において、ベイズモデルの利点は、真の後続分布を正確に捉えることに依存する。複雑な多重モーダルおよび相関後部を近似するのに適した暗黙分布を特定するニューラルサンプリング手法を提案する。提案手法では,ニューラルネットワークを局所的に線形化することにより,暗黙分布を用いた近似推論の新たなバウンダリを導入する。
論文参考訳（メタデータ） (2023-10-10T14:06:56Z)
Variational Density Propagation Continual Learning [0.0]
現実世界にデプロイされるディープニューラルネットワーク(DNN)は、定期的にオフ・オブ・ディストリビューション(OoD)データの対象となっている。本稿では,ベンチマーク連続学習データセットによってモデル化されたデータ分散ドリフトに適応するフレームワークを提案する。
論文参考訳（メタデータ） (2023-08-22T21:51:39Z)
Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。モデルに基づくベイズ強化学習の観点から問題を考察する。本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文参考訳（メタデータ） (2023-08-12T14:59:19Z)
Normality-Guided Distributional Reinforcement Learning for Continuous Control [13.818149654692863]
平均戻り値の予測モデル、すなわち値関数の学習は多くの強化学習アルゴリズムにおいて重要な役割を果たす。本研究では,複数の連続制御タスクにおける値分布について検討し,学習した値分布が正常に近いことを実証的に確認した。本稿では,標準値関数に存在しない値分布の構造的特性によって測定された正当性に基づくポリシー更新戦略を提案する。
論文参考訳（メタデータ） (2022-08-28T02:52:10Z)
Semantic Self-adaptation: Enhancing Generalization with a Single Sample [45.111358665370524]
セマンティックセグメンテーションのための自己適応型アプローチを提案する。整合正則化を用いて畳み込み層のパラメータを入力画像に微調整する。実験により, 自己適応は訓練時のモデル正規化の確立した実践を補完する可能性が示唆された。
論文参考訳（メタデータ） (2022-08-10T12:29:01Z)
On Generalizing Beyond Domains in Cross-Domain Continual Learning [91.56748415975683]
ディープニューラルネットワークは、新しいタスクを学んだ後、これまで学んだ知識の破滅的な忘れ込みに悩まされることが多い。提案手法は、ドメインシフト中の新しいタスクを精度良く学習することで、DomainNetやOfficeHomeといった挑戦的なデータセットで最大10%向上する。
論文参考訳（メタデータ） (2022-03-08T09:57:48Z)
A Variational Bayesian Approach to Learning Latent Variables for Acoustic Knowledge Transfer [55.20627066525205]
本稿では,ディープニューラルネットワーク(DNN)モデルにおける潜伏変数の分布を学習するための変分ベイズ(VB)アプローチを提案する。我々の提案するVBアプローチは,ターゲットデバイスにおいて良好な改善が得られ,しかも,13の最先端知識伝達アルゴリズムを一貫して上回っている。
論文参考訳（メタデータ） (2021-10-16T15:54:01Z)
Distributional Reinforcement Learning via Moment Matching [54.16108052278444]
ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。 Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
論文参考訳（メタデータ） (2020-07-24T05:18:17Z)
Covariate Distribution Aware Meta-learning [3.494950334697974]
本稿では,有意義な緩和を導入することで,計算可能なメタ学習アルゴリズムを提案する。一般的な分類ベンチマークに基づいて,ブートストラップによるメタラーニングベースラインに対するアルゴリズムの優位性を実証する。
論文参考訳（メタデータ） (2020-07-06T05:00:13Z)
Learning Diverse Representations for Fast Adaptation to Distribution Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文参考訳（メタデータ） (2020-06-12T12:23:50Z)
Meta Learning as Bayes Risk Minimization [18.76745359031975]
確率的フレームワークを使用して、関連する2つのタスクの意味を定式化する。我々の定式化において、BRM最適解は、文脈データセット上で条件付けられたタスク固有の潜在変数の後方分布から計算された予測分布によって与えられる。後部分布の近似は、真の後部分布と同じ速度で最大推定値に収束することを示す。
論文参考訳（メタデータ） (2020-06-02T09:38:00Z)
A Distributional Analysis of Sampling-Based Reinforcement Learning Algorithms [67.67377846416106]
定常ステップサイズに対する強化学習アルゴリズムの理論解析に対する分布的アプローチを提案する。本稿では,TD($lambda$)や$Q$-Learningのような値ベースの手法が,関数の分布空間で制約のある更新ルールを持つことを示す。
論文参考訳（メタデータ） (2020-03-27T05:13:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。