論文の概要: EVaDE : Event-Based Variational Thompson Sampling for Model-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2501.09611v1
- Date: Thu, 16 Jan 2025 15:35:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:09:41.585672
- Title: EVaDE : Event-Based Variational Thompson Sampling for Model-Based Reinforcement Learning
- Title(参考訳): EVaDE : モデルベース強化学習のためのイベントベース変分トンプソンサンプリング
- Authors: Siddharth Aravindan, Dixant Mittal, Wee Sun Lee,
- Abstract要約: Posterior Sampling for Reinforcement Learning (PSRL) は、モデルに基づく強化学習アルゴリズムをトンプソンサンプリングで強化するアルゴリズムである。
最近の研究は、ニューラルネットワークと組み合わせて使用されるドロップアウトが、これらの後部を近似できる変動分布を誘導していることを示している。
MBRLに有用な変動分布であるEVaDE(Event-based Variational Distributions for Exploration)を提案する。
- 参考スコア(独自算出の注目度): 13.322155764694275
- License:
- Abstract: Posterior Sampling for Reinforcement Learning (PSRL) is a well-known algorithm that augments model-based reinforcement learning (MBRL) algorithms with Thompson sampling. PSRL maintains posterior distributions of the environment transition dynamics and the reward function, which are intractable for tasks with high-dimensional state and action spaces. Recent works show that dropout, used in conjunction with neural networks, induces variational distributions that can approximate these posteriors. In this paper, we propose Event-based Variational Distributions for Exploration (EVaDE), which are variational distributions that are useful for MBRL, especially when the underlying domain is object-based. We leverage the general domain knowledge of object-based domains to design three types of event-based convolutional layers to direct exploration. These layers rely on Gaussian dropouts and are inserted between the layers of the deep neural network model to help facilitate variational Thompson sampling. We empirically show the effectiveness of EVaDE-equipped Simulated Policy Learning (EVaDE-SimPLe) on the 100K Atari game suite.
- Abstract(参考訳): Posterior Sampling for Reinforcement Learning (PSRL)は、モデルベース強化学習(MBRL)アルゴリズムをトンプソンサンプリングで強化するよく知られたアルゴリズムである。
PSRLは、環境遷移力学と報酬関数の後方分布を維持しており、これは高次元の状態と行動空間を持つタスクには難易度である。
最近の研究は、ニューラルネットワークと組み合わせて使用されるドロップアウトが、これらの後部を近似できる変動分布を誘導していることを示している。
本稿では,MBRLに有用な変動分布であるイベントベースの探索用変分分布(EVaDE)を提案する。
オブジェクトベースのドメインの一般的なドメイン知識を利用して、3種類のイベントベースの畳み込みレイヤを設計し、直接探索します。
これらの層はガウスのドロップアウトに依存しており、変分トンプソンサンプリングを容易にするためにディープニューラルネットワークモデルの層の間に挿入される。
100K AtariゲームスイートにおけるEVaDE-equulated Policy Learning(EVaDE-SimPLe)の有効性を実証的に示す。
関連論文リスト
- Applying the maximum entropy principle to neural networks enhances multi-species distribution models [5.6578808468308335]
我々は、ニューラルネットワークを利用して種間の共有機能を自動的に学習するDeepMaxentを提案する。
我々は、その空間的サンプリングバイアスで知られるベンチマークデータセットでDeepMaxentを評価する。
以上の結果から,DeepMaxentはすべての地域やグループでMaxentよりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-12-26T13:47:04Z) - Generalized Bayesian deep reinforcement learning [2.469908534801392]
マルコフ依存を仮定した深部生成モデルを用いて未知環境のダイナミクスをモデル化する。
これらのモデルに対する可能性関数が存在しないため、一般化された予測順序(または述語)スコアリング規則(SR)を学習することでそれらを訓練する。
政策学習では,後部分布に関する期待値関数を最大化することにより,最適な政策を学習するためのトンプソンサンプリング(ETS)を提案する。
論文 参考訳(メタデータ) (2024-12-16T13:02:17Z) - Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review [63.31328039424469]
このチュートリアルは、下流の報酬関数を最適化するための微調整拡散モデルのための方法を網羅的に調査する。
PPO,微分可能最適化,報酬重み付きMLE,値重み付きサンプリング,経路整合性学習など,様々なRLアルゴリズムの適用について説明する。
論文 参考訳(メタデータ) (2024-07-18T17:35:32Z) - Minimizing Energy Costs in Deep Learning Model Training: The Gaussian Sampling Approach [11.878350833222711]
ガウス分布からの勾配更新をサンプリングするために, em GradSamp という手法を提案する。
Em GradSampは、勾配の合理化だけでなく、エポック全体のスキップを可能にし、全体的な効率を向上させる。
我々は、標準CNNとトランスフォーマーベースモデルの多種多様なセットにまたがって、我々の仮説を厳格に検証する。
論文 参考訳(メタデータ) (2024-06-11T15:01:20Z) - Out of the Ordinary: Spectrally Adapting Regression for Covariate Shift [12.770658031721435]
本稿では,学習前のニューラル回帰モデルの最後の層の重みを適応させて,異なる分布から得られる入力データを改善する手法を提案する。
本稿では,この軽量なスペクトル適応手法により,合成および実世界のデータセットの分布外性能が向上することを示す。
論文 参考訳(メタデータ) (2023-12-29T04:15:58Z) - Thompson sampling for improved exploration in GFlowNets [75.89693358516944]
生成フローネットワーク(Generative Flow Networks, GFlowNets)は、合成対象物上の分布からのサンプリングを、学習可能なアクションポリシーを用いたシーケンシャルな意思決定問題として扱う、アモータイズされた変分推論アルゴリズムである。
2つの領域において、TS-GFNは、過去の研究で使われたオフ・ポリティクス・サーベイ・ストラテジーよりも、探索を改善し、目標分布への収束を早くすることを示す。
論文 参考訳(メタデータ) (2023-06-30T14:19:44Z) - PDE+: Enhancing Generalization via PDE with Adaptive Distributional
Diffusion [66.95761172711073]
ニューラルネットワークの一般化は、機械学習における中心的な課題です。
本稿では、入力データを調整することに集中するのではなく、ニューラルネットワークの基盤機能を直接拡張することを提案する。
私たちはこの理論的フレームワークを、$textbfPDE+$$textbfPDE$ with $textbfA$daptive $textbfD$istributional $textbfD$iffusionとして実践しました。
論文 参考訳(メタデータ) (2023-05-25T08:23:26Z) - WLD-Reg: A Data-dependent Within-layer Diversity Regularizer [98.78384185493624]
ニューラルネットワークは、勾配に基づく最適化と共同で訓練された階層構造に配置された複数の層で構成されている。
我々は、この従来の「中間層」フィードバックを補うために、同じ層内での活性化の多様性を促進するために、追加の「中間層」フィードバックを補うことを提案する。
本稿では,提案手法が複数のタスクにおける最先端ニューラルネットワークモデルの性能を向上させることを実証した広範な実証研究を提案する。
論文 参考訳(メタデータ) (2023-01-03T20:57:22Z) - Predictive Coding beyond Gaussian Distributions [38.51699576854394]
予測符号化(英: Predictive coding, PC)は、階層型ガウス生成モデルに基づく推論を行う神経科学に着想を得た手法である。
これらの手法は、複雑な層やアクティベーション関数のダイナミクスを複製できないため、現代のニューラルネットワークに従わない。
提案手法は,条件付き言語モデルにおいて,トランスフォーマネットワークをトレーニングし,BPに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2022-11-07T12:02:05Z) - A new perspective on probabilistic image modeling [92.89846887298852]
本稿では,密度推定,サンプリング,トラクタブル推論が可能な画像モデリングのための新しい確率論的手法を提案する。
DCGMMは、CNNのように、ランダムな初期条件からSGDによってエンドツーエンドに訓練することができる。
本研究は,近年のPCおよびSPNモデルと,推論,分類,サンプリングの観点から比較した。
論文 参考訳(メタデータ) (2022-03-21T14:53:57Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。