論文の概要: BADM: Batch ADMM for Deep Learning
- arxiv url: http://arxiv.org/abs/2407.01640v1
- Date: Sun, 30 Jun 2024 20:47:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 19:52:16.203875
- Title: BADM: Batch ADMM for Deep Learning
- Title(参考訳): BADM: ディープラーニングのためのバッチADMM
- Authors: Ouya Wang, Shenglong Zhou, Geoffrey Ye Li,
- Abstract要約: 勾配降下に基づくアルゴリズムはディープニューラルネットワークのトレーニングに広く用いられているが、しばしば収束が遅い。
我々は、乗算器の交互方向法(ADMM)の枠組みを利用して、バッチADMM(Batch ADMM)と呼ばれる新しいデータ駆動アルゴリズムを開発する。
我々は,グラフモデリング,コンピュータビジョン,画像生成,自然言語処理など,さまざまなディープラーニングタスクにおけるBADMの性能を評価する。
- 参考スコア(独自算出の注目度): 35.39258144247444
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Stochastic gradient descent-based algorithms are widely used for training deep neural networks but often suffer from slow convergence. To address the challenge, we leverage the framework of the alternating direction method of multipliers (ADMM) to develop a novel data-driven algorithm, called batch ADMM (BADM). The fundamental idea of the proposed algorithm is to split the training data into batches, which is further divided into sub-batches where primal and dual variables are updated to generate global parameters through aggregation. We evaluate the performance of BADM across various deep learning tasks, including graph modelling, computer vision, image generation, and natural language processing. Extensive numerical experiments demonstrate that BADM achieves faster convergence and superior testing accuracy compared to other state-of-the-art optimizers.
- Abstract(参考訳): 確率勾配勾配に基づくアルゴリズムはディープニューラルネットワークのトレーニングに広く用いられているが、しばしば収束が遅い。
この課題に対処するために,乗算器の交互方向法 (ADMM) の枠組みを活用し,バッチADMM (BADM) と呼ばれる新しいデータ駆動アルゴリズムを開発した。
提案アルゴリズムの基本的な考え方は、トレーニングデータをバッチに分割し、さらにサブバッチに分割することで、原始変数と双対変数が更新され、アグリゲーションを通じてグローバルパラメータを生成する。
我々は,グラフモデリング,コンピュータビジョン,画像生成,自然言語処理など,さまざまなディープラーニングタスクにおけるBADMの性能を評価する。
大規模な数値実験により、BADMは他の最先端オプティマイザと比較して、より高速な収束とテスト精度の向上が示されている。
関連論文リスト
- AA-DLADMM: An Accelerated ADMM-based Framework for Training Deep Neural
Networks [1.3812010983144802]
勾配降下(SGD)とその多くの変種は、ディープニューラルネットワークを訓練するための広範な最適化アルゴリズムである。
SGDは、勾配の消失、理論的保証の欠如、入力に対するかなりの感度など、避けられない欠点に悩まされている。
本稿では,この欠点に対処するため,Anderson Acceleration for Deep Learning ADMM (AA-DLADMM)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-08T01:22:00Z) - BatchGFN: Generative Flow Networks for Batch Active Learning [80.73649229919454]
BatchGFNは、生成フローネットワークを使用してバッチ報酬に比例したデータポイントのセットをサンプリングする、プールベースのアクティブラーニングのための新しいアプローチである。
提案手法は,おもちゃの回帰問題において,1点当たり1回の前方通過で推定時間に近距離最適効用バッチをサンプリングすることを可能にした。
論文 参考訳(メタデータ) (2023-06-26T20:41:36Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Enabling Deep Learning-based Physical-layer Secret Key Generation for
FDD-OFDM Systems in Multi-Environments [27.47842642468537]
本稿では,学習に基づく問題として,複数の環境におけるPKG問題を定式化する。
本稿では,鍵生成のためのディープトランスファー学習(DTL)とメタラーニングに基づくチャネル特徴マッピングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-06T09:24:04Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Federated Learning via Inexact ADMM [46.99210047518554]
本稿では,乗算器の不正確な交互方向法(ADMM)を提案する。
どちらも通信効率が高く、ストラグラー効果と戦うことができ、穏やかな条件下で収束する。
フェデレート学習のためのいくつかの最先端アルゴリズムと比較して高い数値性能を持つ。
論文 参考訳(メタデータ) (2022-04-22T09:55:33Z) - Bilevel Online Deep Learning in Non-stationary Environment [4.565872584112864]
Bilevel Online Deep Learning (BODL)フレームワークは、双方向最適化戦略とオンラインアンサンブル分類器を組み合わせたフレームワークである。
概念ドリフトが検出されると、BODLアルゴリズムはバイレベル最適化によりモデルパラメータを適応的に更新し、大きなドリフトを回避し、正の転送を促進する。
論文 参考訳(メタデータ) (2022-01-25T11:05:51Z) - An Adaptive Memory Multi-Batch L-BFGS Algorithm for Neural Network
Training [0.951828574518325]
近年,大規模なニューラルネットワークトレーニング問題に対して,BFGSアルゴリズムの限られたメモリバージョンが注目されている。
MB-AMと呼ばれるマルチバッチL-BFGSアルゴリズムを提案し,曲率情報に対する信頼度を徐々に高める。
論文 参考訳(メタデータ) (2020-12-14T11:40:41Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。