論文の概要: Cooperative Deep $Q$-learning Framework for Environments Providing Image
Feedback
- arxiv url: http://arxiv.org/abs/2110.15305v1
- Date: Thu, 28 Oct 2021 17:12:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-29 16:50:43.623747
- Title: Cooperative Deep $Q$-learning Framework for Environments Providing Image
Feedback
- Title(参考訳): 画像フィードバックを提供する環境のための協調型深層学習フレームワーク
- Authors: Krishnan Raghavan and Vignesh Narayanan and Jagannathan Sarangapani
- Abstract要約: 本稿では, 深層強化学習, サンプル非効率性, 遅い学習の2つの課題を, NN駆動学習の2つのアプローチで解決する。
特に、時間差(TD)誤差駆動学習手法を開発し、TD誤差の線形変換のセットを導入し、ディープNNの各層のパラメータを直接更新する。
提案手法は学習と収束を高速化し,バッファサイズの削減を必要とすることを示す。
- 参考スコア(独自算出の注目度): 5.607676459156789
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In this paper, we address two key challenges in deep reinforcement learning
setting, sample inefficiency and slow learning, with a dual NN-driven learning
approach. In the proposed approach, we use two deep NNs with independent
initialization to robustly approximate the action-value function in the
presence of image inputs. In particular, we develop a temporal difference (TD)
error-driven learning approach, where we introduce a set of linear
transformations of the TD error to directly update the parameters of each layer
in the deep NN. We demonstrate theoretically that the cost minimized by the
error-driven learning (EDL) regime is an approximation of the empirical cost
and the approximation error reduces as learning progresses, irrespective of the
size of the network. Using simulation analysis, we show that the proposed
methods enables faster learning and convergence and requires reduced buffer
size (thereby increasing the sample efficiency).
- Abstract(参考訳): 本稿では,深層強化学習設定における2つの課題,サンプル非効率性と低速学習について,nn-driven learningアプローチを用いて論じる。
提案手法では,画像入力の存在下での動作値関数をロバストに近似するために,独立初期化を持つ2つの深層nnを用いる。
特に,td(temporal difference)エラー駆動学習手法を開発し,tdエラーの線形変換のセットを導入し,深層nnの各レイヤのパラメータを直接更新する。
本研究では,誤り駆動学習(EDL)によるコスト最小化は経験的コストの近似であり,学習が進むにつれてネットワークのサイズに関係なく近似誤差が減少することを示す。
シミュレーション解析により,提案手法はより高速な学習と収束を可能にし,バッファサイズの削減(サンプル効率の向上)が必要であることを示す。
関連論文リスト
- Convergence Visualizer of Decentralized Federated Distillation with
Reduced Communication Costs [3.2098126952615442]
フェデレートラーニング(FL)は、データ共有を必要とせずに協調学習を実現し、プライバシーの漏洩を防ぐ。
本研究では,CMFD の未解決課題として,(1) 通信コストの削減と(2) モデル収束の可視化の2つを解決した。
論文 参考訳(メタデータ) (2023-12-19T07:23:49Z) - Faster Adaptive Federated Learning [84.38913517122619]
フェデレートラーニングは分散データの出現に伴って注目を集めている。
本稿では,クロスサイロFLにおけるモーメントに基づく分散低減手法に基づく適応アルゴリズム(FAFED)を提案する。
論文 参考訳(メタデータ) (2022-12-02T05:07:50Z) - Less is More: Rethinking Few-Shot Learning and Recurrent Neural Nets [2.824895388993495]
情報理論AEPに基づく信頼性学習の理論的保証を提供する。
次に、高効率なリカレントニューラルネット(RNN)フレームワークに焦点を当て、少数ショット学習のための縮小エントロピーアルゴリズムを提案する。
実験結果から,学習モデルのサンプル効率,一般化,時間的複雑さを向上する可能性が示唆された。
論文 参考訳(メタデータ) (2022-09-28T17:33:11Z) - Solving Sparse Linear Inverse Problems in Communication Systems: A Deep
Learning Approach With Adaptive Depth [51.40441097625201]
疎信号回復問題に対するエンドツーエンドの訓練可能なディープラーニングアーキテクチャを提案する。
提案手法は,出力するレイヤ数を学習し,各タスクのネットワーク深さを推論フェーズで動的に調整する。
論文 参考訳(メタデータ) (2020-10-29T06:32:53Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Tune smarter not harder: A principled approach to tuning learning rates
for shallow nets [13.203765985718201]
浅いフィードフォワードニューラルネットワークに対して,学習率を選択するための原則的アプローチを提案する。
シミュレーションにより,提案手法が既存のチューニング手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2020-03-22T09:38:35Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。