論文の概要: Randomized Automatic Differentiation
- arxiv url: http://arxiv.org/abs/2007.10412v2
- Date: Sat, 13 Mar 2021 18:28:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 12:56:21.013158
- Title: Randomized Automatic Differentiation
- Title(参考訳): ランダム化自動分化
- Authors: Deniz Oktay, Nick McGreivy, Joshua Aduol, Alex Beatson, Ryan P. Adams
- Abstract要約: 我々は、ランダム化自動微分(RAD)のための一般的なフレームワークとアプローチを開発する。
RADは、分散の見返りにメモリを減らし、バイアスのない見積もりを計算できる。
本稿では,フィードフォワードネットワークのバッチサイズを小さくし,繰り返しネットワークの場合と同様の回数でRADが収束することを示す。
- 参考スコア(独自算出の注目度): 22.95414996614006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The successes of deep learning, variational inference, and many other fields
have been aided by specialized implementations of reverse-mode automatic
differentiation (AD) to compute gradients of mega-dimensional objectives. The
AD techniques underlying these tools were designed to compute exact gradients
to numerical precision, but modern machine learning models are almost always
trained with stochastic gradient descent. Why spend computation and memory on
exact (minibatch) gradients only to use them for stochastic optimization? We
develop a general framework and approach for randomized automatic
differentiation (RAD), which can allow unbiased gradient estimates to be
computed with reduced memory in return for variance. We examine limitations of
the general approach, and argue that we must leverage problem specific
structure to realize benefits. We develop RAD techniques for a variety of
simple neural network architectures, and show that for a fixed memory budget,
RAD converges in fewer iterations than using a small batch size for feedforward
networks, and in a similar number for recurrent networks. We also show that RAD
can be applied to scientific computing, and use it to develop a low-memory
stochastic gradient method for optimizing the control parameters of a linear
reaction-diffusion PDE representing a fission reactor.
- Abstract(参考訳): 深層学習、変分推論、その他多くの分野の成功は、多次元目的の勾配を計算するための逆モード自動微分(AD)の特殊実装によって助けられている。
これらのツールの基盤となるAD技術は、数値的精度の正確な勾配を計算するために設計されたが、現代の機械学習モデルは、ほぼ常に確率的勾配降下で訓練されている。
計算と記憶を正確な(ミニバッチ)勾配に費やして、確率的最適化に使用するのはなぜでしょう?
本研究では, ランダム化自動微分(RAD)のための一般的なフレームワークとアプローチを開発し, 分散の見返りにメモリを減らし, 偏りのない勾配推定を計算できるようにする。
一般的なアプローチの限界を検証し、利点を実現するためには問題固有の構造を活用する必要があると論じる。
我々は、様々な単純なニューラルネットワークアーキテクチャのためのRAD技術を開発し、固定メモリ予算では、フィードフォワードネットワークの小さなバッチサイズや、リカレントネットワークの同様の数よりも、RADが少ないイテレーションで収束することを示す。
また,radを科学計算に適用できることを示すとともに,核分裂反応器を表す線形反応拡散pdeの制御パラメータを最適化する低メモリ確率勾配法を開発した。
関連論文リスト
- Unified Gradient-Based Machine Unlearning with Remain Geometry Enhancement [29.675650285351768]
深層ニューラルネットワークのプライバシーと信頼性を高めるために、機械学習(MU)が登場した。
近似MUは大規模モデルの実用的手法である。
本稿では,最新の学習方向を暗黙的に近似する高速スローパラメータ更新手法を提案する。
論文 参考訳(メタデータ) (2024-09-29T15:17:33Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - Cogradient Descent for Dependable Learning [64.02052988844301]
双線形最適化問題に対処するために,CoGDアルゴリズムに基づく信頼度の高い学習法を提案する。
CoGDは、ある変数がスパーシティ制約を持つ場合の双線形問題を解くために導入された。
また、特徴と重みの関連を分解するためにも使用できるため、畳み込みニューラルネットワーク(CNN)をより良く訓練するための我々の手法をさらに一般化することができる。
論文 参考訳(メタデータ) (2021-06-20T04:28:20Z) - Efficient Learning of Generative Models via Finite-Difference Score
Matching [111.55998083406134]
有限差分で任意の順序方向微分を効率的に近似する汎用戦略を提案する。
我々の近似は関数評価にのみ関係しており、これは並列で実行でき、勾配計算は行わない。
論文 参考訳(メタデータ) (2020-07-07T10:05:01Z) - Learning Rates as a Function of Batch Size: A Random Matrix Theory
Approach to Neural Network Training [2.9649783577150837]
スパイクされたフィールド依存ランダム行列理論を用いて, ニューラルネットの損失景観に及ぼすミニバッチの影響について検討した。
我々は、スムーズで非ニュートンディープニューラルネットワークのための最大降下および適応訓練規則の解析式を導出する。
VGG/ResNetおよびImageNetデータセットのクレームを検証する。
論文 参考訳(メタデータ) (2020-06-16T11:55:45Z) - Predictive Coding Approximates Backprop along Arbitrary Computation
Graphs [68.8204255655161]
我々は、コア機械学習アーキテクチャを予測的符号化に翻訳する戦略を開発する。
私たちのモデルは、挑戦的な機械学習ベンチマークのバックプロップと同等に機能します。
本手法は,ニューラルネットワークに標準機械学習アルゴリズムを直接実装できる可能性を高める。
論文 参考訳(メタデータ) (2020-06-07T15:35:47Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。