論文の概要: Consolidated Adaptive T-soft Update for Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2202.12504v1
- Date: Fri, 25 Feb 2022 05:40:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-28 16:09:39.382688
- Title: Consolidated Adaptive T-soft Update for Deep Reinforcement Learning
- Title(参考訳): 深層強化学習のための適応型tソフトアップデート
- Authors: Taisuke Kobayashi
- Abstract要約: T-softの更新は、ターゲットネットワークのノイズロスト更新ルールとして提案されている。
本研究では,AdaTerm の更新ルールを利用して,適応型 T-soft (AT-soft) 更新を開発する。
- 参考スコア(独自算出の注目度): 8.071506311915396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Demand for deep reinforcement learning (DRL) is gradually increased to enable
robots to perform complex tasks, while DRL is known to be unstable. As a
technique to stabilize its learning, a target network that slowly and
asymptotically matches a main network is widely employed to generate stable
pseudo-supervised signals. Recently, T-soft update has been proposed as a
noise-robust update rule for the target network and has contributed to
improving the DRL performance. However, the noise robustness of T-soft update
is specified by a hyperparameter, which should be tuned for each task, and is
deteriorated by a simplified implementation. This study develops adaptive
T-soft (AT-soft) update by utilizing the update rule in AdaTerm, which has been
developed recently. In addition, the concern that the target network does not
asymptotically match the main network is mitigated by a new consolidation for
bringing the main network back to the target network. This so-called
consolidated AT-soft (CAT-soft) update is verified through numerical
simulations.
- Abstract(参考訳): 深部強化学習(DRL)の需要は徐々に増加し、ロボットが複雑なタスクを実行できるようになり、DRLは不安定であることが知られている。
学習を安定させる技術として、メインネットワークにゆっくりと漸近的に一致するターゲットネットワークを用いて、安定した擬似教師付き信号を生成する。
近年,ターゲットネットワークのノイズロスト更新ルールとしてT-softが提案され,DRLの性能向上に寄与している。
しかし、T-Soft更新のノイズロバスト性は、タスクごとに調整すべきハイパーパラメータによって規定され、単純化された実装によって劣化する。
本研究では,最近開発された AdaTerm の更新ルールを利用して,適応型 T-soft (AT-soft) 更新を開発する。
また、ターゲットネットワークをターゲットネットワークに戻すための新たな統合により、ターゲットネットワークがメインネットワークと漸近的に一致しないという懸念が軽減される。
いわゆる統合AT-soft(CAT-soft)更新は数値シミュレーションにより検証される。
関連論文リスト
- Stabilizing RNN Gradients through Pre-training [3.335932527835653]
学習理論は、勾配が深さや時間で指数関数的に成長するのを防ぎ、トレーニングを安定させ改善することを提案する。
我々は、既知の安定性理論を拡張し、データとパラメータの分布について最小限の仮定を必要とするディープ・リカレント・ネットワークの幅広いファミリーを包含する。
本稿では,この問題を緩和するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-23T11:48:35Z) - Multiplicative update rules for accelerating deep learning training and
increasing robustness [69.90473612073767]
我々は、幅広い機械学習アルゴリズムに適合し、代替の更新ルールを適用することができる最適化フレームワークを提案する。
提案するフレームワークはトレーニングを加速する一方、従来の追加更新ルールとは対照的に、より堅牢なモデルにつながります。
論文 参考訳(メタデータ) (2023-07-14T06:44:43Z) - Quantization-aware Interval Bound Propagation for Training Certifiably
Robust Quantized Neural Networks [58.195261590442406]
我々は、逆向きに頑健な量子化ニューラルネットワーク(QNN)の訓練と証明の課題について検討する。
近年の研究では、浮動小数点ニューラルネットワークが量子化後の敵攻撃に対して脆弱であることが示されている。
本稿では、堅牢なQNNをトレーニングするための新しい方法であるQA-IBP(quantization-aware interval bound propagation)を提案する。
論文 参考訳(メタデータ) (2022-11-29T13:32:38Z) - Learning in Feedback-driven Recurrent Spiking Neural Networks using
full-FORCE Training [4.124948554183487]
本稿では,トレーニング中にのみ第2のネットワークを導入するRSNNの教師付きトレーニング手順を提案する。
提案したトレーニング手順は、リカレント層とリードアウト層の両方のターゲットを生成することで構成される。
本研究では,8つの力学系をモデル化するためのフルFORCEトレーニング手法の性能向上とノイズ堅牢性を示す。
論文 参考訳(メタデータ) (2022-05-26T19:01:19Z) - Learning Fast and Slow for Online Time Series Forecasting [76.50127663309604]
Fast and Slow Learning Networks (FSNet)は、オンライン時系列予測のための総合的なフレームワークである。
FSNetは、最近の変更への迅速な適応と、同様の古い知識の取得のバランスを取る。
私たちのコードは公開されます。
論文 参考訳(メタデータ) (2022-02-23T18:23:07Z) - Ensemble-in-One: Learning Ensemble within Random Gated Networks for
Enhanced Adversarial Robustness [18.514706498043214]
敵の攻撃は現代のディープラーニングシステムに高いセキュリティリスクをもたらしている。
ランダムゲートネットワーク(RGN)内でアンサンブルを訓練するためのアンサンブル・イン・ワン(EIO)を提案する。
EIOは、従来のアンサンブルトレーニング手法を一貫して上回り、計算オーバーヘッドがさらに少なくなります。
論文 参考訳(メタデータ) (2021-03-27T03:13:03Z) - t-Soft Update of Target Network for Deep Reinforcement Learning [8.071506311915396]
本稿では,深部強化学習(DRL)のためのターゲットネットワークの頑健な更新ルールを提案する。
指数移動平均と正規分布の類似性からt-soft更新法を導出した。
DRLのPyBulletロボットシミュレーションでは、t-soft更新によるオンラインアクター批判アルゴリズムが、得られたリターンおよび/またはそのばらつきの点で従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-08-25T07:41:47Z) - Improve Generalization and Robustness of Neural Networks via Weight
Scale Shifting Invariant Regularizations [52.493315075385325]
重み劣化を含む正則化器の族は、均質な活性化関数を持つネットワークに対する本質的な重みのノルムをペナルティ化するのに有効でないことを示す。
そこで我々は,ニューラルネットワークの本質的な規範を効果的に制約する改良型正規化器を提案する。
論文 参考訳(メタデータ) (2020-08-07T02:55:28Z) - Progressive Tandem Learning for Pattern Recognition with Deep Spiking
Neural Networks [80.15411508088522]
スパイキングニューラルネットワーク(SNN)は、低レイテンシと高い計算効率のために、従来の人工知能ニューラルネットワーク(ANN)よりも優位性を示している。
高速かつ効率的なパターン認識のための新しいANN-to-SNN変換およびレイヤワイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-02T15:38:44Z) - Rapid Structural Pruning of Neural Networks with Set-based Task-Adaptive
Meta-Pruning [83.59005356327103]
既存のプルーニング技術に共通する制限は、プルーニングの前に少なくとも1回はネットワークの事前トレーニングが必要であることである。
本稿では,ターゲットデータセットの関数としてプルーニングマスクを生成することにより,大規模な参照データセット上で事前訓練されたネットワークをタスク適応的にプルークするSTAMPを提案する。
ベンチマークデータセット上での最近の先進的なプルーニング手法に対するSTAMPの有効性を検証する。
論文 参考訳(メタデータ) (2020-06-22T10:57:43Z) - STDPG: A Spatio-Temporal Deterministic Policy Gradient Agent for Dynamic
Routing in SDN [6.27420060051673]
ソフトウェア定義ネットワーク(SDN)における動的ルーティングは、集中的な意思決定問題と見なすことができる。
本稿では,SDNにおける動的ルーティングのための新しいモデルフリーフレームワークを提案する。
STDPGは、平均的なエンドツーエンド遅延の観点から、より良いルーティングソリューションを実現する。
論文 参考訳(メタデータ) (2020-04-21T07:19:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。