論文の概要: Analytically Tractable Bayesian Deep Q-Learning
- arxiv url: http://arxiv.org/abs/2106.11086v1
- Date: Mon, 21 Jun 2021 13:11:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-22 21:50:43.539608
- Title: Analytically Tractable Bayesian Deep Q-Learning
- Title(参考訳): 解析的トラクタブルベイズ深部Q-Learning
- Authors: Luong Ha, Nguyen and James-A. Goulet
- Abstract要約: 我々は時間差Q-ラーニングフレームワークを適応させ、抽出可能な近似ガウス推論(TAGI)と互換性を持たせる。
我々は,TAGIがバックプロパゲーション学習ネットワークに匹敵する性能に到達できることを実証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has gained increasing interest since the
demonstration it was able to reach human performance on video game benchmarks
using deep Q-learning (DQN). The current consensus for training neural networks
on such complex environments is to rely on gradient-based optimization.
Although alternative Bayesian deep learning methods exist, most of them still
rely on gradient-based optimization, and they typically do not scale on
benchmarks such as the Atari game environment. Moreover none of these
approaches allow performing the analytical inference for the weights and biases
defining the neural network. In this paper, we present how we can adapt the
temporal difference Q-learning framework to make it compatible with the
tractable approximate Gaussian inference (TAGI), which allows learning the
parameters of a neural network using a closed-form analytical method.
Throughout the experiments with on- and off-policy reinforcement learning
approaches, we demonstrate that TAGI can reach a performance comparable to
backpropagation-trained networks while using fewer hyperparameters, and without
relying on gradient-based optimization.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、DQN(Deep Q-learning)を用いて、ビデオゲームのベンチマークで人間のパフォーマンスに到達できたデモ以来、関心が高まっている。
このような複雑な環境でニューラルネットワークをトレーニングするための現在のコンセンサスは、勾配に基づく最適化に依存している。
代替のベイズ深層学習法は存在するが、ほとんどは勾配に基づく最適化に依存しており、通常はatariゲーム環境のようなベンチマークではスケールしない。
さらに、これらのアプローチのどれも、ニューラルネットワークを定義する重みとバイアスの分析的推論を実行できない。
本稿では, 時間差Q-ラーニングフレームワークを用いて, 閉形式解析法を用いてニューラルネットワークのパラメータを学習可能な, 抽出可能な近似ガウス推論(TAGI)と互換性を持たせる方法について述べる。
オン・オフ・ポリティクス強化学習手法を用いた実験を通じて,我々は,tagi が高パラメータを削減しつつ,勾配に基づく最適化を必要とせず,バックプロパゲーション学習ネットワークに匹敵する性能に到達できることを実証した。
関連論文リスト
- Randomized Forward Mode Gradient for Spiking Neural Networks in Scientific Machine Learning [4.178826560825283]
スパイキングニューラルネットワーク(SNN)は、ディープニューラルネットワークの階層的学習能力とスパイクベースの計算のエネルギー効率を組み合わせた、機械学習における有望なアプローチである。
SNNの伝統的なエンドツーエンドトレーニングは、しばしばバックプロパゲーションに基づいており、重み更新はチェーンルールによって計算された勾配から導かれる。
この手法は, 生体適合性に限界があり, ニューロモルフィックハードウェアの非効率性のため, 課題に遭遇する。
本研究では,SNNの代替トレーニング手法を導入する。後方伝搬の代わりに,前方モード内での重量摂動手法を活用する。
論文 参考訳(メタデータ) (2024-11-11T15:20:54Z) - Approximated Likelihood Ratio: A Forward-Only and Parallel Framework for Boosting Neural Network Training [30.452060061499523]
本稿では、勾配推定における計算およびメモリ要求を軽減するために、LR法を近似する手法を提案する。
ニューラルネットワークトレーニングにおける近似手法の有効性を実験により実証した。
論文 参考訳(メタデータ) (2024-03-18T23:23:50Z) - Accelerated Linearized Laplace Approximation for Bayesian Deep Learning [34.81292720605279]
ニューラルタンジェントカーネル(NTK)に対するNystrom近似を開発し、LLAを加速する。
我々の手法は、フォワードモード自動微分のための人気のあるディープラーニングライブラリの能力から恩恵を受ける。
私たちの方法では、視覚変換器のようなアーキテクチャまでスケールアップできます。
論文 参考訳(メタデータ) (2022-10-23T07:49:03Z) - Optimization-Based Separations for Neural Networks [57.875347246373956]
本研究では,2層のシグモダルアクティベーションを持つディープ2ニューラルネットワークを用いて,ボールインジケータ関数を効率よく学習できることを示す。
これは最適化に基づく最初の分離結果であり、より強力なアーキテクチャの近似の利点は、実際に確実に現れる。
論文 参考訳(メタデータ) (2021-12-04T18:07:47Z) - Proxy Convexity: A Unified Framework for the Analysis of Neural Networks
Trained by Gradient Descent [95.94432031144716]
学習ネットワークの分析のための統合された非最適化フレームワークを提案する。
既存の保証は勾配降下により統一することができることを示す。
論文 参考訳(メタデータ) (2021-06-25T17:45:00Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Analytically Tractable Inference in Deep Neural Networks [0.0]
Tractable Approximate Inference (TAGI)アルゴリズムは、浅いフルコネクテッドニューラルネットワークのバックプロパゲーションに対する実行可能でスケーラブルな代替手段であることが示された。
従来のディープニューラルネットワークアーキテクチャをトレーニングするために、TAGIがバックプロパゲーションのパフォーマンスとどのように一致するか、または上回るかを実証しています。
論文 参考訳(メタデータ) (2021-03-09T14:51:34Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z) - Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文 参考訳(メタデータ) (2020-02-04T23:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。