論文の概要: Multiscale Stochastic Gradient Descent: Efficiently Training Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2501.12739v2
- Date: Wed, 12 Mar 2025 16:05:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 16:44:43.759485
- Title: Multiscale Stochastic Gradient Descent: Efficiently Training Convolutional Neural Networks
- Title(参考訳): マルチスケール確率勾配Descent:畳み込みニューラルネットワークを効果的に訓練する
- Authors: Niloufar Zakariaei, Shadab Ahamed, Eldad Haber, Moshe Eliasof,
- Abstract要約: Multiscale Gradient Descent (Multiscale-SGD) は、粗大なトレーニング戦略を利用した新しい最適化手法である。
学習可能なスケールに依存しないMesh-Free Convolutions (MFC) の新たなクラスを導入する。
本研究は,高分解能・マルチスケール学習タスクにおける実用的なスケーラビリティを実現するため,ディープネットワークの効率的なトレーニングのための新しいパラダイムを構築した。
- 参考スコア(独自算出の注目度): 6.805997961535213
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stochastic Gradient Descent (SGD) is the foundation of modern deep learning optimization but becomes increasingly inefficient when training convolutional neural networks (CNNs) on high-resolution data. This paper introduces Multiscale Stochastic Gradient Descent (Multiscale-SGD), a novel optimization approach that exploits coarse-to-fine training strategies to estimate the gradient at a fraction of the cost, improving the computational efficiency of SGD type methods while preserving model accuracy. We derive theoretical criteria for Multiscale-SGD to be effective, and show that while standard convolutions can be used, they can be suboptimal for noisy data. This leads us to introduce a new class of learnable, scale-independent Mesh-Free Convolutions (MFCs) that ensure consistent gradient behavior across resolutions, making them well-suited for multiscale training. Through extensive empirical validation, we demonstrate that in practice, (i) our Multiscale-SGD approach can be used to train various architectures for a variety of tasks, and (ii) when the noise is not significant, standard convolutions benefit from our multiscale training framework. Our results establish a new paradigm for the efficient training of deep networks, enabling practical scalability in high-resolution and multiscale learning tasks.
- Abstract(参考訳): Stochastic Gradient Descent (SGD) は、現代のディープラーニング最適化の基礎であるが、高解像度データ上で畳み込みニューラルネットワーク(CNN)をトレーニングすると、ますます非効率になる。
本稿では,モデル精度を保ちながら,SGD型手法の計算効率を向上させるために,粗大から細大までのトレーニング戦略を活用する新しい最適化手法であるMultiscale-SGDを提案する。
我々は,Multiscale-SGDの有効性に関する理論的基準を導出し,標準畳み込みを使用できるが,ノイズの多いデータには最適であることを示す。
これにより、学習可能でスケールに依存しないMesh-Free Convolutions(MFC)の新たなクラスを導入し、解像度間の一貫性のある勾配の挙動を保証し、それらをマルチスケールトレーニングに適するようにします。
広範な実証的検証を通じて、実際にそれを実証する。
(i)我々のMultiscale-SGDアプローチは、様々なタスクのための様々なアーキテクチャのトレーニングに使用できます。
(II)ノイズが重要でない場合、標準的な畳み込みは、我々のマルチスケールトレーニングフレームワークの恩恵を受けます。
本研究は,高分解能・マルチスケール学習タスクにおける実用的なスケーラビリティを実現するため,ディープネットワークの効率的なトレーニングのための新しいパラダイムを構築した。
関連論文リスト
- Optimizing ML Training with Metagradient Descent [69.89631748402377]
モデルトレーニングによる勾配というメタグラディエントを,大規模に効率的に計算するアルゴリズムを導入する。
次に、メタグラディエントを用いた効果的な最適化を可能にする「滑らかなモデルトレーニング」フレームワークを導入する。
論文 参考訳(メタデータ) (2025-03-17T22:18:24Z) - Meta-Sparsity: Learning Optimal Sparse Structures in Multi-task Networks through Meta-learning [4.462334751640166]
Meta-sparsityは、ディープニューラルネットワーク(DNN)がマルチタスク学習環境で最適なスパース共有構造を生成することを可能にする、モデルのスパーシティを学習するためのフレームワークである。
Model Agnostic Meta-Learning (MAML)に触発され、マルチタスクシナリオにおける共有パラメータと最適なスパースパラメータの学習に重点を置いている。
メタスパーシティーの有効性は、2つのデータセットに対する広範な実験によって厳格に評価されている。
論文 参考訳(メタデータ) (2025-01-21T13:25:32Z) - Gradient-free variational learning with conditional mixture networks [39.827869318925494]
条件付き混合ネットワーク(CMN)の高速・勾配なし変分法であるCAVI-CMNを導入する。
CAVI-CMNは、バックプロパゲーションを伴う最大推定値(MLE)と比較して、競争力があり、しばしば優れた予測精度を達成する。
入力サイズや専門家の数が増加するにつれて、計算時間はMLEと競合的にスケールする。
論文 参考訳(メタデータ) (2024-08-29T10:43:55Z) - Training Artificial Neural Networks by Coordinate Search Algorithm [0.20971479389679332]
本稿では、ニューラルネットワークのトレーニングのための勾配自由座標探索(CS)アルゴリズムの効率的なバージョンを提案する。
提案アルゴリズムは、微分不可能なアクティベーション関数で使用することができ、多目的/マルチロス問題に適合する。
ANNの重みに対する最適値を求めることは、大規模な最適化問題である。
論文 参考訳(メタデータ) (2024-02-20T01:47:25Z) - conv_einsum: A Framework for Representation and Fast Evaluation of
Multilinear Operations in Convolutional Tensorial Neural Networks [28.416123889998243]
本研究では,テンソル畳み込み層をeinsumのような文字列として表現するフレームワークと,FLOPを最小化してこれらの文字列を評価するメタアルゴリズムであるconv_einsumを開発する。
論文 参考訳(メタデータ) (2024-01-07T04:30:12Z) - An NMF-Based Building Block for Interpretable Neural Networks With
Continual Learning [0.8158530638728501]
既存の学習方法は、解釈可能性と予測性能のバランスをとるのに苦労することが多い。
我々のアプローチは、NMFに基づくビルディングブロックを使用することで、これらの2つの側面のバランスを改善することを目的としています。
論文 参考訳(メタデータ) (2023-11-20T02:00:33Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Multi-Objective Optimization for Sparse Deep Multi-Task Learning [0.0]
重み付きチェビシェフスキャラライゼーションを用いたディープニューラルネットワーク(DNN)のトレーニングのための多目的最適化アルゴリズムを提案する。
本研究の目的は,DNNモデルの持続可能性問題,特にDeep Multi-Taskモデルに焦点をあてることである。
論文 参考訳(メタデータ) (2023-08-23T16:42:27Z) - Decouple Graph Neural Networks: Train Multiple Simple GNNs Simultaneously Instead of One [60.5818387068983]
グラフニューラルネットワーク(GNN)は、深刻な非効率性に悩まされている。
我々は,より効率的なトレーニングを行うために,多層GNNを複数の単純なモジュールとして分離することを提案する。
提案するフレームワークは,合理的な性能で高い効率性を示す。
論文 参考訳(メタデータ) (2023-04-20T07:21:32Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Quantization-aware Interval Bound Propagation for Training Certifiably
Robust Quantized Neural Networks [58.195261590442406]
我々は、逆向きに頑健な量子化ニューラルネットワーク(QNN)の訓練と証明の課題について検討する。
近年の研究では、浮動小数点ニューラルネットワークが量子化後の敵攻撃に対して脆弱であることが示されている。
本稿では、堅牢なQNNをトレーニングするための新しい方法であるQA-IBP(quantization-aware interval bound propagation)を提案する。
論文 参考訳(メタデータ) (2022-11-29T13:32:38Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Efficient Feature Transformations for Discriminative and Generative
Continual Learning [98.10425163678082]
継続的学習のための簡易タスク特化機能マップ変換戦略を提案する。
これらは新しいタスクを学習するための強力な柔軟性を提供し、ベースアーキテクチャに最小パラメータを追加することで実現される。
本手法の有効性と効率を,判別(cifar-100およびimagenet-1k)および生成的タスクの一連の実験を用いて実証する。
論文 参考訳(メタデータ) (2021-03-25T01:48:14Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Regularized Adaptation for Stable and Efficient Continuous-Level
Learning on Image Processing Networks [7.730087303035803]
フィルタ遷移ネットワーク(FTN)を用いた新しい連続レベル学習フレームワークを提案する。
FTNは、新しいレベルに容易に適応できる非線形モジュールであり、望ましくない副作用を防ぐために正規化されている。
様々な画像処理結果から,FTNの性能は適応性および適応性において安定であることが示唆された。
論文 参考訳(メタデータ) (2020-03-11T07:46:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。