論文の概要: Cooperative Deep $Q$-learning Framework for Environments Providing Image
Feedback
- arxiv url: http://arxiv.org/abs/2110.15305v1
- Date: Thu, 28 Oct 2021 17:12:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-29 16:50:43.623747
- Title: Cooperative Deep $Q$-learning Framework for Environments Providing Image
Feedback
- Title(参考訳): 画像フィードバックを提供する環境のための協調型深層学習フレームワーク
- Authors: Krishnan Raghavan and Vignesh Narayanan and Jagannathan Sarangapani
- Abstract要約: 本稿では, 深層強化学習, サンプル非効率性, 遅い学習の2つの課題を, NN駆動学習の2つのアプローチで解決する。
特に、時間差(TD)誤差駆動学習手法を開発し、TD誤差の線形変換のセットを導入し、ディープNNの各層のパラメータを直接更新する。
提案手法は学習と収束を高速化し,バッファサイズの削減を必要とすることを示す。
- 参考スコア(独自算出の注目度): 5.607676459156789
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In this paper, we address two key challenges in deep reinforcement learning
setting, sample inefficiency and slow learning, with a dual NN-driven learning
approach. In the proposed approach, we use two deep NNs with independent
initialization to robustly approximate the action-value function in the
presence of image inputs. In particular, we develop a temporal difference (TD)
error-driven learning approach, where we introduce a set of linear
transformations of the TD error to directly update the parameters of each layer
in the deep NN. We demonstrate theoretically that the cost minimized by the
error-driven learning (EDL) regime is an approximation of the empirical cost
and the approximation error reduces as learning progresses, irrespective of the
size of the network. Using simulation analysis, we show that the proposed
methods enables faster learning and convergence and requires reduced buffer
size (thereby increasing the sample efficiency).
- Abstract(参考訳): 本稿では,深層強化学習設定における2つの課題,サンプル非効率性と低速学習について,nn-driven learningアプローチを用いて論じる。
提案手法では,画像入力の存在下での動作値関数をロバストに近似するために,独立初期化を持つ2つの深層nnを用いる。
特に,td(temporal difference)エラー駆動学習手法を開発し,tdエラーの線形変換のセットを導入し,深層nnの各レイヤのパラメータを直接更新する。
本研究では,誤り駆動学習(EDL)によるコスト最小化は経験的コストの近似であり,学習が進むにつれてネットワークのサイズに関係なく近似誤差が減少することを示す。
シミュレーション解析により,提案手法はより高速な学習と収束を可能にし,バッファサイズの削減(サンプル効率の向上)が必要であることを示す。
関連論文リスト
- Revisiting Disparity from Dual-Pixel Images: Physics-Informed Lightweight Depth Estimation [3.6337378417255177]
完成度に基づくネットワークに基づく軽量な分散度推定手法を提案する。
DP固有の相違誤差をパラメトリックにモデル化し、トレーニング中のサンプリングに使用することにより、DPのユニークな特性を取得する。
その結果,提案手法はシステム全体の規模を従来の手法の1/5に減らし,最先端の成果を得た。
論文 参考訳(メタデータ) (2024-11-06T09:03:53Z) - Adaptive Anomaly Detection in Network Flows with Low-Rank Tensor Decompositions and Deep Unrolling [9.20186865054847]
異常検出(AD)は、将来の通信システムのレジリエンスを確保するための重要な要素として、ますます認識されている。
この研究は、不完全測定を用いたネットワークフローにおけるADについて考察する。
本稿では,正規化モデル適合性に基づくブロック帰属凸近似アルゴリズムを提案する。
ベイズ的アプローチに触発されて、我々はモデルアーキテクチャを拡張し、フローごとのオンライン適応とステップごとの統計処理を行う。
論文 参考訳(メタデータ) (2024-09-17T19:59:57Z) - Convergence Visualizer of Decentralized Federated Distillation with
Reduced Communication Costs [3.2098126952615442]
フェデレートラーニング(FL)は、データ共有を必要とせずに協調学習を実現し、プライバシーの漏洩を防ぐ。
本研究では,CMFD の未解決課題として,(1) 通信コストの削減と(2) モデル収束の可視化の2つを解決した。
論文 参考訳(メタデータ) (2023-12-19T07:23:49Z) - Faster Adaptive Federated Learning [84.38913517122619]
フェデレートラーニングは分散データの出現に伴って注目を集めている。
本稿では,クロスサイロFLにおけるモーメントに基づく分散低減手法に基づく適応アルゴリズム(FAFED)を提案する。
論文 参考訳(メタデータ) (2022-12-02T05:07:50Z) - Less is More: Rethinking Few-Shot Learning and Recurrent Neural Nets [2.824895388993495]
情報理論AEPに基づく信頼性学習の理論的保証を提供する。
次に、高効率なリカレントニューラルネット(RNN)フレームワークに焦点を当て、少数ショット学習のための縮小エントロピーアルゴリズムを提案する。
実験結果から,学習モデルのサンプル効率,一般化,時間的複雑さを向上する可能性が示唆された。
論文 参考訳(メタデータ) (2022-09-28T17:33:11Z) - Solving Sparse Linear Inverse Problems in Communication Systems: A Deep
Learning Approach With Adaptive Depth [51.40441097625201]
疎信号回復問題に対するエンドツーエンドの訓練可能なディープラーニングアーキテクチャを提案する。
提案手法は,出力するレイヤ数を学習し,各タスクのネットワーク深さを推論フェーズで動的に調整する。
論文 参考訳(メタデータ) (2020-10-29T06:32:53Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。