Fugu-MT 論文翻訳(概要): Deep Q-Network with Proximal Iteration

論文の概要: Deep Q-Network with Proximal Iteration

arxiv url: http://arxiv.org/abs/2112.05848v1
Date: Fri, 10 Dec 2021 22:07:06 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-14 15:08:00.446670
Title: Deep Q-Network with Proximal Iteration
Title（参考訳）: 近位反復を伴うディープqネットワーク
Authors: Kavosh Asadi, Rasool Fakoor, Omer Gottesman, Michael L. Littman, Alexander J. Smola
Abstract要約: 我々は、強化学習における値関数最適化に近性反復を用いる。我々は、DQNのオンラインネットワークコンポーネントがターゲットネットワークの近傍に留まることを確実にするために、DQNエージェントの目的機能に近義語を付与する。
参考スコア（独自算出の注目度）: 91.51444853100497
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We employ Proximal Iteration for value-function optimization in reinforcement learning. Proximal Iteration is a computationally efficient technique that enables us to bias the optimization procedure towards more desirable solutions. As a concrete application of Proximal Iteration in deep reinforcement learning, we endow the objective function of the Deep Q-Network (DQN) agent with a proximal term to ensure that the online-network component of DQN remains in the vicinity of the target network. The resultant agent, which we call DQN with Proximal Iteration, or DQNPro, exhibits significant improvements over the original DQN on the Atari benchmark. Our results accentuate the power of employing sound optimization techniques for deep reinforcement learning.
Abstract（参考訳）: 我々は強化学習における価値関数最適化に近近反復を用いる。 Proximal Iterationは,最適化手順をより望ましい解に偏りを与える,計算効率のよい手法である。深層強化学習における近位反復の具体的応用として、DQNのオンラインネットワークコンポーネントがターゲットネットワークの近傍に留まることを確実にするために、深度Qネットワーク(DQN)エージェントの目的機能に近位項を付与する。得られたエージェントはDQN with Proximal Iteration(DQNPro)と呼ばれ、AtariベンチマークのオリジナルのDQNよりも大幅に改善されている。本研究は,深層強化学習における音響最適化手法の活用効果を強調する。

関連論文リスト

Network Sparsity Unlocks the Scaling Potential of Deep Reinforcement Learning [57.3885832382455]
静的ネットワークの疎結合を単独で導入することで,最先端アーキテクチャの高密度化を超えて,さらなるスケーリング可能性を実現することができることを示す。解析の結果,高密度DRLネットワークをネーティブにスケールアップするのとは対照的に,疎ネットワークは高いパラメータ効率とネットワーク表現性を両立させることがわかった。
論文参考訳（メタデータ） (2025-06-20T17:54:24Z)
Eau De $Q$-Network: Adaptive Distillation of Neural Networks in Deep Reinforcement Learning [17.356042621424567]
本稿では,エージェントの学習速度の間隔を増大させる高密度なスパースアルゴリズムを提案する。提案手法をAtari $2600$ベンチマークとMuJoCo物理シミュレータで評価した。
論文参考訳（メタデータ） (2025-03-03T11:39:03Z)
Simplifying Deep Temporal Difference Learning [3.458933902627673]
安定性を維持しつつ,TDトレーニングの高速化と簡易化が可能であるかを検討する。我々の重要な理論的結果は、LayerNormのような正規化技術が証明可能な収束性TDアルゴリズムが得られることを初めて示している。これらの結果に触発され,より簡易なオンラインQ-LearningアルゴリズムであるPQNを提案する。
論文参考訳（メタデータ） (2024-07-05T18:49:07Z)
Efficient Deep Learning with Decorrelated Backpropagation [1.9731499060686393]
深層畳み込みニューラルネットワークのより効率的なトレーニングは、Decorrelated backpropagationを学習のメカニズムとして受け入れることによって実現可能であることを示す。我々は、50層ResNetモデルまで複数の深層ネットワークをトレーニングする際に、バックプロパゲーションと比較して、2倍以上のスピードアップと高いテスト精度を達成する。
論文参考訳（メタデータ） (2024-05-03T17:21:13Z)
Tempo: Confidentiality Preservation in Cloud-Based Neural Network Training [8.187538747666203]
クラウドディープラーニングプラットフォームは、計算リソースが不足している顧客に対して、費用対効果の高いディープニューラルネットワーク(DNN)トレーニングを提供する。近年、研究者は、CPU信頼実行環境(TEE)を活用して、ディープラーニングにおけるデータのプライバシ保護を模索している。本稿では、TEEと分散GPUと連携するクラウドベースの初のディープラーニングシステムであるTempoについて述べる。
論文参考訳（メタデータ） (2024-01-21T15:57:04Z)
Dynamic Sparse Training for Deep Reinforcement Learning [36.66889208433228]
我々は,ニューラルネットワークをスクラッチから切り離した深層強化学習エージェントを動的に訓練する試みを初めて提案する。私たちのアプローチは、既存の深層強化学習アルゴリズムに簡単に統合できます。我々は,オープンAI体育連続制御タスクに対するアプローチを評価した。
論文参考訳（メタデータ） (2021-06-08T09:57:20Z)
Training Larger Networks for Deep Reinforcement Learning [18.193180866998333]
ネットワーク容量の増加は性能を向上しないことを示す。本稿では,1)DenseNet接続の広いネットワーク,2)RLのトレーニングから表現学習を分離する,3)オーバーフィッティング問題を軽減するための分散トレーニング手法を提案する。この3倍の手法を用いることで、非常に大きなネットワークをトレーニングでき、性能が大幅に向上することを示す。
論文参考訳（メタデータ） (2021-02-16T02:16:54Z)
Sparsity in Deep Learning: Pruning and growth for efficient inference and training in neural networks [78.47459801017959]
Sparsityは、モバイル機器に適合する通常のネットワークのメモリフットプリントを減らすことができる。ニューラルネットワークの要素を除去および追加するためのアプローチ、モデルの疎性を達成するための異なるトレーニング戦略、実際に疎性を利用するメカニズムについて説明する。
論文参考訳（メタデータ） (2021-01-31T22:48:50Z)
ShiftAddNet: A Hardware-Inspired Deep Network [87.18216601210763]
ShiftAddNetはエネルギー効率のよい乗算レスディープニューラルネットワークである。エネルギー効率のよい推論とトレーニングの両方につながるが、表現能力は損なわれない。 ShiftAddNetは、DNNのトレーニングと推論において、80%以上のハードウェア量子化されたエネルギーコストを積極的に削減し、同等またはより良い精度を提供する。
論文参考訳（メタデータ） (2020-10-24T05:09:14Z)
Hardware Accelerator for Adversarial Attacks on Deep Learning Neural Networks [7.20382137043754]
強靭な物理的摂動を生成するために, 対向攻撃ネットワークアルゴリズムのクラスが提案されている。本稿では,メムリスタクロスバーアレーをベースとした敵攻撃用ハードウェアアクセラレータを提案する。
論文参考訳（メタデータ） (2020-08-03T21:55:41Z)
Fully Convolutional Networks for Continuous Sign Language Recognition [83.85895472824221]
連続手話認識は、空間次元と時間次元の両方の学習を必要とする困難なタスクである。本稿では,オンラインSLRのための完全畳み込みネットワーク (FCN) を提案し,弱い注釈付きビデオシーケンスから空間的特徴と時間的特徴を同時に学習する。
論文参考訳（メタデータ） (2020-07-24T08:16:37Z)
Learning to Hash with Graph Neural Networks for Recommender Systems [103.82479899868191]
グラフ表現学習は、大規模に高品質な候補探索をサポートすることに多くの注目を集めている。ユーザ・イテム相互作用ネットワークにおけるオブジェクトの埋め込みベクトルの学習の有効性にもかかわらず、連続的な埋め込み空間におけるユーザの好みを推測する計算コストは膨大である。連続的かつ離散的なコードとを協調的に学習するための,単純かつ効果的な離散表現学習フレームワークを提案する。
論文参考訳（メタデータ） (2020-03-04T06:59:56Z)
Learn2Perturb: an End-to-end Feature Perturbation Learning to Improve Adversarial Robustness [79.47619798416194]
Learn2Perturbは、ディープニューラルネットワークの対角的堅牢性を改善するために、エンドツーエンドの機能摂動学習アプローチである。予測最大化にインスパイアされ、ネットワークと雑音パラメータを連続的にトレーニングするために、交互にバックプロパゲーショントレーニングアルゴリズムが導入された。
論文参考訳（メタデータ） (2020-03-02T18:27:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。