Fugu-MT 論文翻訳(概要): Geometry-aware training of factorized layers in tensor Tucker format

論文の概要: Geometry-aware training of factorized layers in tensor Tucker format

arxiv url: http://arxiv.org/abs/2305.19059v2
Date: Mon, 14 Oct 2024 10:17:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 18:05:14.909079
Title: Geometry-aware training of factorized layers in tensor Tucker format
Title（参考訳）: テンソルタッカー形式における因子化層の幾何学的学習
Authors: Emanuele Zangrando, Steffen Schotthöfer, Gianluca Ceruti, Jonas Kusch, Francesco Tudisco,
Abstract要約: 重みテンソルのタッカー分解の要因を学習するための新しい手法を提案する。トレーニングの提案は, 元の非リファクタリング力学を局所的に近似する上で最適であることが証明された。本稿では,アルゴリズムの理論解析を行い,収束,近似,局所降下保証を示す。
参考スコア（独自算出の注目度）: 6.701651480567394
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reducing parameter redundancies in neural network architectures is crucial for achieving feasible computational and memory requirements during training and inference phases. Given its easy implementation and flexibility, one promising approach is layer factorization, which reshapes weight tensors into a matrix format and parameterizes them as the product of two small rank matrices. However, this approach typically requires an initial full-model warm-up phase, prior knowledge of a feasible rank, and it is sensitive to parameter initialization. In this work, we introduce a novel approach to train the factors of a Tucker decomposition of the weight tensors. Our training proposal proves to be optimal in locally approximating the original unfactorized dynamics independently of the initialization. Furthermore, the rank of each mode is dynamically updated during training. We provide a theoretical analysis of the algorithm, showing convergence, approximation and local descent guarantees. The method's performance is further illustrated through a variety of experiments, showing remarkable training compression rates and comparable or even better performance than the full baseline and alternative layer factorization strategies.
Abstract（参考訳）: ニューラルネットワークアーキテクチャにおけるパラメータ冗長性の低減は、トレーニングと推論フェーズにおいて、実行可能な計算およびメモリ要求を達成するために不可欠である。実装と柔軟性の容易さから、ある有望なアプローチは層分解であり、これは重みテンソルを行列形式に再設定し、2つの小さな階数行列の積としてパラメータ化する。しかし、このアプローチは一般的に、実現可能なランクの事前知識である初期フルモデルウォームアップフェーズを必要とし、パラメータの初期化に敏感である。本研究では,重みテンソルのタッカー分解の要因を学習するための新しい手法を提案する。トレーニングの提案は,初期化とは無関係に,元の非リファクタリング力学を局所的に近似する上で最適であることが証明された。さらに、トレーニング中に各モードのランクを動的に更新する。本稿では,アルゴリズムの理論解析を行い,収束,近似,局所降下保証を示す。この手法の性能は、様々な実験を通じてさらに説明され、優れたトレーニング圧縮率と、完全なベースラインおよび代替層分解戦略と同等またはそれ以上の性能を示す。

関連論文リスト

LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Deep Weight Factorization: Sparse Learning Through the Lens of Artificial Symmetries [10.209740962369453]
スパース正規化技術は機械学習において十分に確立されているが、ニューラルネットワークへの応用は依然として難しい。期待できる代替手段として、浅い重み分解があり、そこでは重みが2つの要因に分断され、$L$penalized Neural Networkの最適化が可能になる。本研究では,2つ以上の既存手法に微分因子を付加し,重み分解を導入する。
論文参考訳（メタデータ） (2025-02-04T17:12:56Z)
tCURLoRA: Tensor CUR Decomposition Based Low-Rank Parameter Adaptation and Its Application in Medical Image Segmentation [1.3281936946796913]
伝達学習は、事前訓練されたモデルからの知識を活用することで、目標タスクの性能を大幅に向上させた。ディープニューラルネットワークのスケールアップに伴って、フル微調整によって、計算とストレージの大幅な課題がもたらされる。テンソルCUR分解に基づく新しい微調整法であるtCURLoRAを提案する。
論文参考訳（メタデータ） (2025-01-04T08:25:32Z)
Advancing Neural Network Performance through Emergence-Promoting Initialization Scheme [0.0]
機械学習の創発は、トレーニングデータのスケールと構造から生じる能力の自発的な出現を指す。我々は、出現の可能性を高めることを目的とした、新しい単純なニューラルネットワーク初期化スキームを導入する。バッチ正規化の有無にかかわらず,モデル精度とトレーニング速度の両面で大幅に向上したことを示す。
論文参考訳（メタデータ） (2024-07-26T18:56:47Z)
Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文参考訳（メタデータ） (2024-06-24T23:00:58Z)
Concurrent Training and Layer Pruning of Deep Neural Networks [0.0]
トレーニングの初期段階において、ニューラルネットワークの無関係な層を特定し、排除できるアルゴリズムを提案する。本研究では,非線形区間を切断した後にネットワークを流れる情報の流れを,非線形ネットワーク区間の周囲の残差接続を用いた構造を用いる。
論文参考訳（メタデータ） (2024-06-06T23:19:57Z)
Scaling Pre-trained Language Models to Deeper via Parameter-efficient Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。 MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文参考訳（メタデータ） (2023-03-27T02:34:09Z)
An Adaptive and Stability-Promoting Layerwise Training Approach for Sparse Deep Neural Network Architecture [0.0]
この研究は、与えられたトレーニングデータセットに対してうまく一般化するディープニューラルネットワーク(DNN)アーキテクチャを開発するための2段階適応フレームワークを提案する。第1段階では、新しいレイヤを毎回追加し、前のレイヤでパラメータを凍結することで独立してトレーニングする、レイヤワイズトレーニングアプローチが採用されている。本稿では, 学習アルゴリズムの望ましい特性として, エプシロン・デルタ安定促進の概念を導入し, 多様体正規化を用いることで, エプシロン・デルタ安定促進アルゴリズムが得られることを示す。
論文参考訳（メタデータ） (2022-11-13T09:51:16Z)
Subquadratic Overparameterization for Shallow Neural Networks [60.721751363271146]
私たちは、標準的なニューラルトレーニング戦略を採用することができる分析フレームワークを提供しています。我々は、Desiderata viaak-Lojasiewicz, smoothness, and standard assumptionsを達成する。
論文参考訳（メタデータ） (2021-11-02T20:24:01Z)
Defensive Tensorization [113.96183766922393]
本稿では,ネットワークの遅延高次分解を利用した対角防御手法であるテンソル防御手法を提案する。我々は,標準画像分類ベンチマークにおけるアプローチの有効性を実証的に実証した。我々は,音声タスクとバイナリネットワークを考慮し,ドメイン間のアプローチと低精度アーキテクチャの汎用性を検証した。
論文参考訳（メタデータ） (2021-10-26T17:00:16Z)
Initialization and Regularization of Factorized Neural Layers [23.875225732697142]
ディープネットにおける因子化層の初期化と規則化の方法を示す。これらのスキームが翻訳と教師なしプリトレーニングの両方のパフォーマンスを向上させる方法を示しています。
論文参考訳（メタデータ） (2021-05-03T17:28:07Z)
GradInit: Learning to Initialize Neural Networks for Stable and Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文参考訳（メタデータ） (2021-02-16T11:45:35Z)
Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。 Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文参考訳（メタデータ） (2020-04-20T18:12:56Z)
A Multi-Scale Tensor Network Architecture for Classification and Regression [0.0]
テンソルネットワークを用いた教師あり学習のためのアルゴリズムを提案する。我々はウェーブレット変換の連続を通して粗粒化によってデータを前処理するステップを採用する。ネットワークを通しての細粒化がモデルの初期化にどのように利用されるかを示す。
論文参考訳（メタデータ） (2020-01-22T21:26:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。