論文の概要: EVaDE : Event-Based Variational Thompson Sampling for Model-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2501.09611v1
- Date: Thu, 16 Jan 2025 15:35:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:09:41.585672
- Title: EVaDE : Event-Based Variational Thompson Sampling for Model-Based Reinforcement Learning
- Title(参考訳): EVaDE : モデルベース強化学習のためのイベントベース変分トンプソンサンプリング
- Authors: Siddharth Aravindan, Dixant Mittal, Wee Sun Lee,
- Abstract要約: Posterior Sampling for Reinforcement Learning (PSRL) は、モデルに基づく強化学習アルゴリズムをトンプソンサンプリングで強化するアルゴリズムである。
最近の研究は、ニューラルネットワークと組み合わせて使用されるドロップアウトが、これらの後部を近似できる変動分布を誘導していることを示している。
MBRLに有用な変動分布であるEVaDE(Event-based Variational Distributions for Exploration)を提案する。
- 参考スコア(独自算出の注目度): 13.322155764694275
- License:
- Abstract: Posterior Sampling for Reinforcement Learning (PSRL) is a well-known algorithm that augments model-based reinforcement learning (MBRL) algorithms with Thompson sampling. PSRL maintains posterior distributions of the environment transition dynamics and the reward function, which are intractable for tasks with high-dimensional state and action spaces. Recent works show that dropout, used in conjunction with neural networks, induces variational distributions that can approximate these posteriors. In this paper, we propose Event-based Variational Distributions for Exploration (EVaDE), which are variational distributions that are useful for MBRL, especially when the underlying domain is object-based. We leverage the general domain knowledge of object-based domains to design three types of event-based convolutional layers to direct exploration. These layers rely on Gaussian dropouts and are inserted between the layers of the deep neural network model to help facilitate variational Thompson sampling. We empirically show the effectiveness of EVaDE-equipped Simulated Policy Learning (EVaDE-SimPLe) on the 100K Atari game suite.
- Abstract(参考訳): Posterior Sampling for Reinforcement Learning (PSRL)は、モデルベース強化学習(MBRL)アルゴリズムをトンプソンサンプリングで強化するよく知られたアルゴリズムである。
PSRLは、環境遷移力学と報酬関数の後方分布を維持しており、これは高次元の状態と行動空間を持つタスクには難易度である。
最近の研究は、ニューラルネットワークと組み合わせて使用されるドロップアウトが、これらの後部を近似できる変動分布を誘導していることを示している。
本稿では,MBRLに有用な変動分布であるイベントベースの探索用変分分布(EVaDE)を提案する。
オブジェクトベースのドメインの一般的なドメイン知識を利用して、3種類のイベントベースの畳み込みレイヤを設計し、直接探索します。
これらの層はガウスのドロップアウトに依存しており、変分トンプソンサンプリングを容易にするためにディープニューラルネットワークモデルの層の間に挿入される。
100K AtariゲームスイートにおけるEVaDE-equulated Policy Learning(EVaDE-SimPLe)の有効性を実証的に示す。
関連論文リスト
- On the Robustness of Fully-Spiking Neural Networks in Open-World Scenarios using Forward-Only Learning Algorithms [6.7236795813629]
我々はフォワードフォワードアルゴリズム(FFA)を用いたOoD(Out-of-Distribution)検出のための新しいアルゴリズムを開発した。
提案手法は, 標本の潜在表現からクラス表現多様体への距離を用いて, 分布内(ID)データに属するサンプルの確率を測定する。
また,任意のクラスの分布から遠ざかるサンプルの特徴を強調表示するグラデーションフリー属性手法を提案する。
論文 参考訳(メタデータ) (2024-07-19T08:08:17Z) - Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review [63.31328039424469]
このチュートリアルは、下流の報酬関数を最適化するための微調整拡散モデルのための方法を網羅的に調査する。
PPO,微分可能最適化,報酬重み付きMLE,値重み付きサンプリング,経路整合性学習など,様々なRLアルゴリズムの適用について説明する。
論文 参考訳(メタデータ) (2024-07-18T17:35:32Z) - Minimizing Energy Costs in Deep Learning Model Training: The Gaussian Sampling Approach [11.878350833222711]
ガウス分布からの勾配更新をサンプリングするために, em GradSamp という手法を提案する。
Em GradSampは、勾配の合理化だけでなく、エポック全体のスキップを可能にし、全体的な効率を向上させる。
我々は、標準CNNとトランスフォーマーベースモデルの多種多様なセットにまたがって、我々の仮説を厳格に検証する。
論文 参考訳(メタデータ) (2024-06-11T15:01:20Z) - Out of the Ordinary: Spectrally Adapting Regression for Covariate Shift [12.770658031721435]
本稿では,学習前のニューラル回帰モデルの最後の層の重みを適応させて,異なる分布から得られる入力データを改善する手法を提案する。
本稿では,この軽量なスペクトル適応手法により,合成および実世界のデータセットの分布外性能が向上することを示す。
論文 参考訳(メタデータ) (2023-12-29T04:15:58Z) - Thompson sampling for improved exploration in GFlowNets [75.89693358516944]
生成フローネットワーク(Generative Flow Networks, GFlowNets)は、合成対象物上の分布からのサンプリングを、学習可能なアクションポリシーを用いたシーケンシャルな意思決定問題として扱う、アモータイズされた変分推論アルゴリズムである。
2つの領域において、TS-GFNは、過去の研究で使われたオフ・ポリティクス・サーベイ・ストラテジーよりも、探索を改善し、目標分布への収束を早くすることを示す。
論文 参考訳(メタデータ) (2023-06-30T14:19:44Z) - PDE+: Enhancing Generalization via PDE with Adaptive Distributional
Diffusion [66.95761172711073]
ニューラルネットワークの一般化は、機械学習における中心的な課題です。
本稿では、入力データを調整することに集中するのではなく、ニューラルネットワークの基盤機能を直接拡張することを提案する。
私たちはこの理論的フレームワークを、$textbfPDE+$$textbfPDE$ with $textbfA$daptive $textbfD$istributional $textbfD$iffusionとして実践しました。
論文 参考訳(メタデータ) (2023-05-25T08:23:26Z) - WLD-Reg: A Data-dependent Within-layer Diversity Regularizer [98.78384185493624]
ニューラルネットワークは、勾配に基づく最適化と共同で訓練された階層構造に配置された複数の層で構成されている。
我々は、この従来の「中間層」フィードバックを補うために、同じ層内での活性化の多様性を促進するために、追加の「中間層」フィードバックを補うことを提案する。
本稿では,提案手法が複数のタスクにおける最先端ニューラルネットワークモデルの性能を向上させることを実証した広範な実証研究を提案する。
論文 参考訳(メタデータ) (2023-01-03T20:57:22Z) - Predictive Coding beyond Gaussian Distributions [38.51699576854394]
予測符号化(英: Predictive coding, PC)は、階層型ガウス生成モデルに基づく推論を行う神経科学に着想を得た手法である。
これらの手法は、複雑な層やアクティベーション関数のダイナミクスを複製できないため、現代のニューラルネットワークに従わない。
提案手法は,条件付き言語モデルにおいて,トランスフォーマネットワークをトレーニングし,BPに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2022-11-07T12:02:05Z) - A new perspective on probabilistic image modeling [92.89846887298852]
本稿では,密度推定,サンプリング,トラクタブル推論が可能な画像モデリングのための新しい確率論的手法を提案する。
DCGMMは、CNNのように、ランダムな初期条件からSGDによってエンドツーエンドに訓練することができる。
本研究は,近年のPCおよびSPNモデルと,推論,分類,サンプリングの観点から比較した。
論文 参考訳(メタデータ) (2022-03-21T14:53:57Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Training Sparse Neural Network by Constraining Synaptic Weight on Unit
Lp Sphere [2.429910016019183]
単位 Lp-球面上のシナプス重みを制約することにより、p で空間を柔軟に制御することができる。
このアプローチは、幅広いドメインをカバーするベンチマークデータセットの実験によって検証されます。
論文 参考訳(メタデータ) (2021-03-30T01:02:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。