Fugu-MT 論文翻訳(概要): Cooperative Deep $Q$-learning Framework for Environments Providing Image Feedback

論文の概要: Cooperative Deep $Q$-learning Framework for Environments Providing Image Feedback

arxiv url: http://arxiv.org/abs/2110.15305v1
Date: Thu, 28 Oct 2021 17:12:41 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-29 16:50:43.623747
Title: Cooperative Deep $Q$-learning Framework for Environments Providing Image Feedback
Title（参考訳）: 画像フィードバックを提供する環境のための協調型深層学習フレームワーク
Authors: Krishnan Raghavan and Vignesh Narayanan and Jagannathan Sarangapani
Abstract要約: 本稿では, 深層強化学習, サンプル非効率性, 遅い学習の2つの課題を, NN駆動学習の2つのアプローチで解決する。特に、時間差(TD)誤差駆動学習手法を開発し、TD誤差の線形変換のセットを導入し、ディープNNの各層のパラメータを直接更新する。提案手法は学習と収束を高速化し,バッファサイズの削減を必要とすることを示す。
参考スコア（独自算出の注目度）: 5.607676459156789
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: In this paper, we address two key challenges in deep reinforcement learning setting, sample inefficiency and slow learning, with a dual NN-driven learning approach. In the proposed approach, we use two deep NNs with independent initialization to robustly approximate the action-value function in the presence of image inputs. In particular, we develop a temporal difference (TD) error-driven learning approach, where we introduce a set of linear transformations of the TD error to directly update the parameters of each layer in the deep NN. We demonstrate theoretically that the cost minimized by the error-driven learning (EDL) regime is an approximation of the empirical cost and the approximation error reduces as learning progresses, irrespective of the size of the network. Using simulation analysis, we show that the proposed methods enables faster learning and convergence and requires reduced buffer size (thereby increasing the sample efficiency).
Abstract（参考訳）: 本稿では,深層強化学習設定における2つの課題,サンプル非効率性と低速学習について,nn-driven learningアプローチを用いて論じる。提案手法では,画像入力の存在下での動作値関数をロバストに近似するために,独立初期化を持つ2つの深層nnを用いる。特に,td(temporal difference)エラー駆動学習手法を開発し,tdエラーの線形変換のセットを導入し,深層nnの各レイヤのパラメータを直接更新する。本研究では,誤り駆動学習(EDL)によるコスト最小化は経験的コストの近似であり,学習が進むにつれてネットワークのサイズに関係なく近似誤差が減少することを示す。シミュレーション解析により,提案手法はより高速な学習と収束を可能にし,バッファサイズの削減(サンプル効率の向上)が必要であることを示す。

関連論文リスト

Fast State-Augmented Learning for Wireless Resource Allocation with Dual Variable Regression [83.27791109672927]
本稿では,資源割当ポリシに対する状態拡張グラフニューラルネットワーク(GNN)のパラメトリゼーションが,ユビキタスな二段階的手法の欠点を回避する方法を示す。ラグランジアンによる国家拡張政策の最大化は、オフライントレーニングフェーズ中に学習される。収束結果と指数確率は、双対函数(有限値)最適性ギャップの剰余に縛られることを証明する。
論文参考訳（メタデータ） (2025-06-23T15:20:58Z)
Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。非滑らかな正規化はしばしば機械学習タスクに組み込まれる。本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-17T08:32:25Z)
Revisiting Disparity from Dual-Pixel Images: Physics-Informed Lightweight Depth Estimation [3.6337378417255177]
完成度に基づくネットワークに基づく軽量な分散度推定手法を提案する。 DP固有の相違誤差をパラメトリックにモデル化し、トレーニング中のサンプリングに使用することにより、DPのユニークな特性を取得する。その結果,提案手法はシステム全体の規模を従来の手法の1/5に減らし,最先端の成果を得た。
論文参考訳（メタデータ） (2024-11-06T09:03:53Z)
Adaptive Anomaly Detection in Network Flows with Low-Rank Tensor Decompositions and Deep Unrolling [9.20186865054847]
異常検出(AD)は、将来の通信システムのレジリエンスを確保するための重要な要素として、ますます認識されている。この研究は、不完全測定を用いたネットワークフローにおけるADについて考察する。本稿では,正規化モデル適合性に基づくブロック帰属凸近似アルゴリズムを提案する。ベイズ的アプローチに触発されて、我々はモデルアーキテクチャを拡張し、フローごとのオンライン適応とステップごとの統計処理を行う。
論文参考訳（メタデータ） (2024-09-17T19:59:57Z)
Convergence Visualizer of Decentralized Federated Distillation with Reduced Communication Costs [3.2098126952615442]
フェデレートラーニング(FL)は、データ共有を必要とせずに協調学習を実現し、プライバシーの漏洩を防ぐ。本研究では,CMFD の未解決課題として,(1) 通信コストの削減と(2) モデル収束の可視化の2つを解決した。
論文参考訳（メタデータ） (2023-12-19T07:23:49Z)
Faster Adaptive Federated Learning [84.38913517122619]
フェデレートラーニングは分散データの出現に伴って注目を集めている。本稿では,クロスサイロFLにおけるモーメントに基づく分散低減手法に基づく適応アルゴリズム(FAFED)を提案する。
論文参考訳（メタデータ） (2022-12-02T05:07:50Z)
Less is More: Rethinking Few-Shot Learning and Recurrent Neural Nets [2.824895388993495]
情報理論AEPに基づく信頼性学習の理論的保証を提供する。次に、高効率なリカレントニューラルネット(RNN)フレームワークに焦点を当て、少数ショット学習のための縮小エントロピーアルゴリズムを提案する。実験結果から,学習モデルのサンプル効率,一般化,時間的複雑さを向上する可能性が示唆された。
論文参考訳（メタデータ） (2022-09-28T17:33:11Z)
Solving Sparse Linear Inverse Problems in Communication Systems: A Deep Learning Approach With Adaptive Depth [51.40441097625201]
疎信号回復問題に対するエンドツーエンドの訓練可能なディープラーニングアーキテクチャを提案する。提案手法は,出力するレイヤ数を学習し,各タスクのネットワーク深さを推論フェーズで動的に調整する。
論文参考訳（メタデータ） (2020-10-29T06:32:53Z)
Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。 AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文参考訳（メタデータ） (2020-10-21T14:49:00Z)
An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文参考訳（メタデータ） (2020-06-19T22:05:19Z)
Communication-Efficient Distributed Stochastic AUC Maximization with Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文参考訳（メタデータ） (2020-05-05T18:08:23Z)
Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できるこのモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文参考訳（メタデータ） (2020-03-13T13:11:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。