論文の概要: Geometry-aware training of factorized layers in tensor Tucker format
- arxiv url: http://arxiv.org/abs/2305.19059v2
- Date: Mon, 14 Oct 2024 10:17:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:03:51.804707
- Title: Geometry-aware training of factorized layers in tensor Tucker format
- Title(参考訳): テンソルタッカー形式における因子化層の幾何学的学習
- Authors: Emanuele Zangrando, Steffen Schotthöfer, Gianluca Ceruti, Jonas Kusch, Francesco Tudisco,
- Abstract要約: 重みテンソルのタッカー分解の要因を学習するための新しい手法を提案する。
トレーニングの提案は, 元の非リファクタリング力学を局所的に近似する上で最適であることが証明された。
本稿では,アルゴリズムの理論解析を行い,収束,近似,局所降下保証を示す。
- 参考スコア(独自算出の注目度): 6.701651480567394
- License:
- Abstract: Reducing parameter redundancies in neural network architectures is crucial for achieving feasible computational and memory requirements during training and inference phases. Given its easy implementation and flexibility, one promising approach is layer factorization, which reshapes weight tensors into a matrix format and parameterizes them as the product of two small rank matrices. However, this approach typically requires an initial full-model warm-up phase, prior knowledge of a feasible rank, and it is sensitive to parameter initialization. In this work, we introduce a novel approach to train the factors of a Tucker decomposition of the weight tensors. Our training proposal proves to be optimal in locally approximating the original unfactorized dynamics independently of the initialization. Furthermore, the rank of each mode is dynamically updated during training. We provide a theoretical analysis of the algorithm, showing convergence, approximation and local descent guarantees. The method's performance is further illustrated through a variety of experiments, showing remarkable training compression rates and comparable or even better performance than the full baseline and alternative layer factorization strategies.
- Abstract(参考訳): ニューラルネットワークアーキテクチャにおけるパラメータ冗長性の低減は、トレーニングと推論フェーズにおいて、実行可能な計算およびメモリ要求を達成するために不可欠である。
実装と柔軟性の容易さから、ある有望なアプローチは層分解であり、これは重みテンソルを行列形式に再設定し、2つの小さな階数行列の積としてパラメータ化する。
しかし、このアプローチは一般的に、実現可能なランクの事前知識である初期フルモデルウォームアップフェーズを必要とし、パラメータの初期化に敏感である。
本研究では,重みテンソルのタッカー分解の要因を学習するための新しい手法を提案する。
トレーニングの提案は,初期化とは無関係に,元の非リファクタリング力学を局所的に近似する上で最適であることが証明された。
さらに、トレーニング中に各モードのランクを動的に更新する。
本稿では,アルゴリズムの理論解析を行い,収束,近似,局所降下保証を示す。
この手法の性能は、様々な実験を通じてさらに説明され、優れたトレーニング圧縮率と、完全なベースラインおよび代替層分解戦略と同等またはそれ以上の性能を示す。
関連論文リスト
- Effective Layer Pruning Through Similarity Metric Perspective [0.0]
ディープニューラルネットワークは、認知タスクを解決する機械学習において、主要なパラダイムとなっている。
これらのモデルから構造を抽出することは、ネットワークの複雑さを減らすための簡単なアプローチである。
層プルーニングは、しばしば高い圧縮速度でネットワーク予測能力(すなわち精度)を損なう。
この研究は、プルーニング手法によって追求されるすべての基礎特性を満たす効果的なレイヤ・プルーニング戦略を導入する。
論文 参考訳(メタデータ) (2024-05-27T11:54:51Z) - Sparse Spectral Training and Inference on Euclidean and Hyperbolic Neural Networks [9.96381061452642]
SST(Sparse Spectral Training)は、全ての特異値を更新し、ネットワーク重みの特異ベクトルを選択的に更新する高度な訓練手法である。
SSTは、特異値の重み付けによる多項サンプリング法により決定される特異ベクトルに対する目標更新戦略を用いて、トレーニングプロセスを洗練する。
OPT-125Mでは、組込み寸法の8.3%に等しく、SSTはパープレキシティギャップを67.6%減らし、一般的なローランク法で性能損失を著しく低減した。
論文 参考訳(メタデータ) (2024-05-24T11:59:41Z) - Structure-Preserving Network Compression Via Low-Rank Induced Training Through Linear Layers Composition [11.399520888150468]
ディープニューラルネットワーク(DNN)は、これまで解決できなかった多くのタスクに対処することに成功した。
DNNに関連するストレージと計算の要件は、これらのトレーニングされたモデルをリソース制限されたデバイスにデプロイする上での課題である。
ローランド誘導訓練(LoRITa)と呼ばれる理論的修正された新しいアプローチを提案する。
LoRITaは線形層を構成することで低ランク化を促進し、特異値切り込みを用いて圧縮する。
論文 参考訳(メタデータ) (2024-05-06T00:58:23Z) - Learning a Consensus Sub-Network with Polarization Regularization and
One Pass Training [3.2214522506924093]
プルーニングスキームは、静的プルーニングのための反復的なトレーニングと微調整、動的プルーニンググラフの繰り返し計算によって、余分なオーバーヘッドを生み出す。
本稿では,より軽量なサブネットワークを学習するためのパラメータ解析手法を提案する。
CIFAR-10 と CIFAR-100 を用いた結果,分類精度が1% 未満の深層ネットワークにおける接続の50%を除去できることが示唆された。
論文 参考訳(メタデータ) (2023-02-17T09:37:17Z) - Slimmable Networks for Contrastive Self-supervised Learning [67.21528544724546]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせずに、事前訓練された小型モデルを得るための一段階のソリューションを提案する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Dimensionality Reduced Training by Pruning and Freezing Parts of a Deep
Neural Network, a Survey [69.3939291118954]
最先端のディープラーニングモデルには、何十億にも達するパラメータカウントがある。そのようなモデルのトレーニング、保存、転送は、エネルギーと時間を要するため、コストがかかる。
モデル圧縮は、ストレージと転送コストを低減し、フォワードおよび/または後方パスでの計算数を減少させることで、トレーニングをより効率的にすることができる。
この研究は、トレーニング全体を通してディープラーニングモデルでトレーニングされた重量を減らす方法に関する調査である。
論文 参考訳(メタデータ) (2022-05-17T05:37:08Z) - Initialization and Regularization of Factorized Neural Layers [23.875225732697142]
ディープネットにおける因子化層の初期化と規則化の方法を示す。
これらのスキームが翻訳と教師なしプリトレーニングの両方のパフォーマンスを向上させる方法を示しています。
論文 参考訳(メタデータ) (2021-05-03T17:28:07Z) - An Efficient Statistical-based Gradient Compression Technique for
Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。
SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文 参考訳(メタデータ) (2021-01-26T13:06:00Z) - Step-Ahead Error Feedback for Distributed Training with Compressed
Gradient [99.42912552638168]
集中型分散トレーニングにおける局所的エラーフィードバックによって,新たな"段階的ミスマッチ"問題が発生することを示す。
本稿では, 厳密な理論的解析を施した2つの新しい手法, 1) 一歩前進, 2) 誤差平均化を提案する。
論文 参考訳(メタデータ) (2020-08-13T11:21:07Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文 参考訳(メタデータ) (2020-02-04T23:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。