Fugu-MT 論文翻訳(概要): A Scalable Finite Difference Method for Deep Reinforcement Learning

論文の概要: A Scalable Finite Difference Method for Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2210.07487v1
Date: Fri, 14 Oct 2022 03:33:53 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-17 15:22:18.502433
Title: A Scalable Finite Difference Method for Deep Reinforcement Learning
Title（参考訳）: 深層強化学習のためのスケーラブルな有限差分法
Authors: Matthew Allen, John Raisbeck, and Hakho Lee
Abstract要約: 深層強化学習領域における分散労働者の活用に関する問題点を考察する。我々は、典型的な条件下での全ての接続CPUの100%使用を実現する、安定で低帯域幅の学習アルゴリズムを作成する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Several low-bandwidth distributable black-box optimization algorithms have recently been shown to perform nearly as well as more refined modern methods in some Deep Reinforcement Learning domains. In this work we investigate a core problem with the use of distributed workers in such systems. Further, we investigate the dramatic differences in performance between the popular Adam gradient descent algorithm and the simplest form of stochastic gradient descent. These investigations produce a stable, low-bandwidth learning algorithm that achieves 100\% usage of all connected CPUs under typical conditions.
Abstract（参考訳）: いくつかの低帯域分布型ブラックボックス最適化アルゴリズムは、近年、いくつかの深層強化学習領域において、より洗練された現代的手法をほぼ同時に実行していることが示されている。本研究では,そのようなシステムにおける分散作業者の利用に関する中核的な問題について検討する。さらに,一般的なadam勾配降下アルゴリズムと最も単純な確率勾配降下法との性能の劇的差異について検討した。これらの研究は安定で低帯域幅の学習アルゴリズムを生み出し、典型的な条件下で全ての接続されたcpuの100\%使用を実現する。

関連論文リスト

Survey on Algorithms for multi-index models [45.143425167349314]
マルチインデックスモデルを用いてインデックス空間を推定するアルゴリズムに関する文献をレビューする。主な焦点は、ガウス空間における計算効率のよい(多項式時間)アルゴリズム、これらの方法によって一貫性が保証される仮定、およびそれらのサンプル複雑性である。
論文参考訳（メタデータ） (2025-04-07T18:50:11Z)
Variance Reduction Methods Do Not Need to Compute Full Gradients: Improved Efficiency through Shuffling [44.31966204357333]
大規模機械学習問題に対するメモリ効率のアルゴリズムを開発した。メモリ効率を向上し、完全な計算を避けるために、2つの重要な手法を用いる。
論文参考訳（メタデータ） (2025-02-20T15:37:45Z)
A Mirror Descent-Based Algorithm for Corruption-Tolerant Distributed Gradient Descent [57.64826450787237]
本研究では, 分散勾配降下アルゴリズムの挙動を, 敵対的腐敗の有無で解析する方法を示す。汚職耐性の分散最適化アルゴリズムを設計するために、(怠慢な)ミラー降下からアイデアをどう使うかを示す。 MNISTデータセットの線形回帰、サポートベクトル分類、ソフトマックス分類に基づく実験は、我々の理論的知見を裏付けるものである。
論文参考訳（メタデータ） (2024-07-19T08:29:12Z)
GRAWA: Gradient-based Weighted Averaging for Distributed Training of Deep Learning Models [9.377424534371727]
時間制約環境における深層モデルの分散トレーニングについて検討する。本稿では,労働者の平均値として計算された中心変数に対して,労働者を定期的に引き出すアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-03-07T04:22:34Z)
Ordering for Non-Replacement SGD [7.11967773739707]
我々は,アルゴリズムの非置換形式に対する収束率を改善する順序付けを求める。我々は,強い凸関数と凸関数のステップサイズを一定かつ小さくするための最適順序付けを開発する。さらに、注文とミニバッチを組み合わせることで、より複雑なニューラルネットワークにも適用できます。
論文参考訳（メタデータ） (2023-06-28T00:46:58Z)
A Bootstrap Algorithm for Fast Supervised Learning [0.0]
ニューラルネットワーク(NN)のトレーニングは通常、勾配降下(および勾配降下(SGD))、ADADELTA、ADAM、制限メモリアルゴリズムなど、ある種の曲線追従手法に依存する。これらのアルゴリズムの収束は通常、高いレベルの精度を達成するために大量の観測にアクセスできることに依存しており、特定の種類の関数で、これらのアルゴリズムはキャッチするデータポイントの複数のエポックを取ることができる。ここでは、収束速度が劇的に向上する可能性を秘めている別の手法を探求する: カーブフォローではなく、隠れた層を「疎結合」することなどに依存する。
論文参考訳（メタデータ） (2023-05-04T18:28:18Z)
The Cascaded Forward Algorithm for Neural Network Training [61.06444586991505]
本稿では,ニューラルネットワークのための新しい学習フレームワークであるCascaded Forward(CaFo)アルゴリズムを提案する。 FFとは異なり、我々のフレームワークは各カスケードブロックのラベル分布を直接出力する。我々のフレームワークでは、各ブロックは独立して訓練できるので、並列加速度システムに容易に展開できる。
論文参考訳（メタデータ） (2023-03-17T02:01:11Z)
Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文参考訳（メタデータ） (2022-10-07T03:52:27Z)
Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文参考訳（メタデータ） (2021-11-23T18:10:48Z)
Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文参考訳（メタデータ） (2021-01-08T18:55:07Z)
Multi-kernel Passive Stochastic Gradient Algorithms and Transfer Learning [21.796874356469644]
勾配アルゴリズムはコスト関数のノイズ勾配が評価される位置を制御できない。このアルゴリズムは高次元問題において著しく優れており、分散還元を取り入れている。
論文参考訳（メタデータ） (2020-08-23T11:55:19Z)
Differentially Private Accelerated Optimization Algorithms [0.7874708385247353]
微分プライベート最適化アルゴリズムの2つのクラスを示す。最初のアルゴリズムはPolyakのヘビーボール法にインスパイアされている。アルゴリズムの第2のクラスは、ネステロフの加速勾配法に基づいている。
論文参考訳（メタデータ） (2020-08-05T08:23:01Z)
Variance Reduction with Sparse Gradients [82.41780420431205]
SVRGやSpiderBoostのような分散還元法では、大きなバッチ勾配と小さなバッチ勾配が混在している。我々は、新しい空間演算子:ランダムトップk演算子を導入する。我々のアルゴリズムは、画像分類、自然言語処理、スパース行列分解など様々なタスクにおいて、一貫してSpiderBoostより優れています。
論文参考訳（メタデータ） (2020-01-27T08:23:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。