論文の概要: Deep Q-Network with Proximal Iteration
- arxiv url: http://arxiv.org/abs/2112.05848v1
- Date: Fri, 10 Dec 2021 22:07:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 15:08:00.446670
- Title: Deep Q-Network with Proximal Iteration
- Title(参考訳): 近位反復を伴うディープqネットワーク
- Authors: Kavosh Asadi, Rasool Fakoor, Omer Gottesman, Michael L. Littman,
Alexander J. Smola
- Abstract要約: 我々は、強化学習における値関数最適化に近性反復を用いる。
我々は、DQNのオンラインネットワークコンポーネントがターゲットネットワークの近傍に留まることを確実にするために、DQNエージェントの目的機能に近義語を付与する。
- 参考スコア(独自算出の注目度): 91.51444853100497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We employ Proximal Iteration for value-function optimization in reinforcement
learning. Proximal Iteration is a computationally efficient technique that
enables us to bias the optimization procedure towards more desirable solutions.
As a concrete application of Proximal Iteration in deep reinforcement learning,
we endow the objective function of the Deep Q-Network (DQN) agent with a
proximal term to ensure that the online-network component of DQN remains in the
vicinity of the target network. The resultant agent, which we call DQN with
Proximal Iteration, or DQNPro, exhibits significant improvements over the
original DQN on the Atari benchmark. Our results accentuate the power of
employing sound optimization techniques for deep reinforcement learning.
- Abstract(参考訳): 我々は強化学習における価値関数最適化に近近反復を用いる。
Proximal Iterationは,最適化手順をより望ましい解に偏りを与える,計算効率のよい手法である。
深層強化学習における近位反復の具体的応用として、DQNのオンラインネットワークコンポーネントがターゲットネットワークの近傍に留まることを確実にするために、深度Qネットワーク(DQN)エージェントの目的機能に近位項を付与する。
得られたエージェントはDQN with Proximal Iteration(DQNPro)と呼ばれ、AtariベンチマークのオリジナルのDQNよりも大幅に改善されている。
本研究は,深層強化学習における音響最適化手法の活用効果を強調する。
関連論文リスト
- Simplifying Deep Temporal Difference Learning [3.458933902627673]
安定性を維持しつつ,TDトレーニングの高速化と簡易化が可能であるかを検討する。
我々の重要な理論的結果は、LayerNormのような正規化技術が証明可能な収束性TDアルゴリズムが得られることを初めて示している。
これらの結果に触発され,より簡易なオンラインQ-LearningアルゴリズムであるPQNを提案する。
論文 参考訳(メタデータ) (2024-07-05T18:49:07Z) - Tempo: Confidentiality Preservation in Cloud-Based Neural Network
Training [8.187538747666203]
クラウドディープラーニングプラットフォームは、計算リソースが不足している顧客に対して、費用対効果の高いディープニューラルネットワーク(DNN)トレーニングを提供する。
近年、研究者は、CPU信頼実行環境(TEE)を活用して、ディープラーニングにおけるデータのプライバシ保護を模索している。
本稿では、TEEと分散GPUと連携するクラウドベースの初のディープラーニングシステムであるTempoについて述べる。
論文 参考訳(メタデータ) (2024-01-21T15:57:04Z) - Dynamic Sparse Training for Deep Reinforcement Learning [36.66889208433228]
我々は,ニューラルネットワークをスクラッチから切り離した深層強化学習エージェントを動的に訓練する試みを初めて提案する。
私たちのアプローチは、既存の深層強化学習アルゴリズムに簡単に統合できます。
我々は,オープンAI体育連続制御タスクに対するアプローチを評価した。
論文 参考訳(メタデータ) (2021-06-08T09:57:20Z) - Training Larger Networks for Deep Reinforcement Learning [18.193180866998333]
ネットワーク容量の増加は性能を向上しないことを示す。
本稿では,1)DenseNet接続の広いネットワーク,2)RLのトレーニングから表現学習を分離する,3)オーバーフィッティング問題を軽減するための分散トレーニング手法を提案する。
この3倍の手法を用いることで、非常に大きなネットワークをトレーニングでき、性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-02-16T02:16:54Z) - Sparsity in Deep Learning: Pruning and growth for efficient inference
and training in neural networks [78.47459801017959]
Sparsityは、モバイル機器に適合する通常のネットワークのメモリフットプリントを減らすことができる。
ニューラルネットワークの要素を除去および追加するためのアプローチ、モデルの疎性を達成するための異なるトレーニング戦略、実際に疎性を利用するメカニズムについて説明する。
論文 参考訳(メタデータ) (2021-01-31T22:48:50Z) - ShiftAddNet: A Hardware-Inspired Deep Network [87.18216601210763]
ShiftAddNetはエネルギー効率のよい乗算レスディープニューラルネットワークである。
エネルギー効率のよい推論とトレーニングの両方につながるが、表現能力は損なわれない。
ShiftAddNetは、DNNのトレーニングと推論において、80%以上のハードウェア量子化されたエネルギーコストを積極的に削減し、同等またはより良い精度を提供する。
論文 参考訳(メタデータ) (2020-10-24T05:09:14Z) - Hardware Accelerator for Adversarial Attacks on Deep Learning Neural
Networks [7.20382137043754]
強靭な物理的摂動を生成するために, 対向攻撃ネットワークアルゴリズムのクラスが提案されている。
本稿では,メムリスタクロスバーアレーをベースとした敵攻撃用ハードウェアアクセラレータを提案する。
論文 参考訳(メタデータ) (2020-08-03T21:55:41Z) - Fully Convolutional Networks for Continuous Sign Language Recognition [83.85895472824221]
連続手話認識は、空間次元と時間次元の両方の学習を必要とする困難なタスクである。
本稿では,オンラインSLRのための完全畳み込みネットワーク (FCN) を提案し,弱い注釈付きビデオシーケンスから空間的特徴と時間的特徴を同時に学習する。
論文 参考訳(メタデータ) (2020-07-24T08:16:37Z) - Learning to Hash with Graph Neural Networks for Recommender Systems [103.82479899868191]
グラフ表現学習は、大規模に高品質な候補探索をサポートすることに多くの注目を集めている。
ユーザ・イテム相互作用ネットワークにおけるオブジェクトの埋め込みベクトルの学習の有効性にもかかわらず、連続的な埋め込み空間におけるユーザの好みを推測する計算コストは膨大である。
連続的かつ離散的なコードとを協調的に学習するための,単純かつ効果的な離散表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-04T06:59:56Z) - Learn2Perturb: an End-to-end Feature Perturbation Learning to Improve
Adversarial Robustness [79.47619798416194]
Learn2Perturbは、ディープニューラルネットワークの対角的堅牢性を改善するために、エンドツーエンドの機能摂動学習アプローチである。
予測最大化にインスパイアされ、ネットワークと雑音パラメータを連続的にトレーニングするために、交互にバックプロパゲーショントレーニングアルゴリズムが導入された。
論文 参考訳(メタデータ) (2020-03-02T18:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。