論文の概要: Searching for Efficient Linear Layers over a Continuous Space of Structured Matrices
- arxiv url: http://arxiv.org/abs/2410.02117v2
- Date: Fri, 4 Oct 2024 17:47:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 08:45:48.526517
- Title: Searching for Efficient Linear Layers over a Continuous Space of Structured Matrices
- Title(参考訳): 構造行列連続空間上の効率的な線形層探索
- Authors: Andres Potapczynski, Shikai Qiu, Marc Finzi, Christopher Ferri, Zixi Chen, Micah Goldblum, Bayan Bruss, Christopher De Sa, Andrew Gordon Wilson,
- Abstract要約: アインシュタイン和を通じて表現可能なすべての線形作用素の探索を可能にする統一フレームワークを提案する。
計算-最適スケーリング法則の違いは主に少数の変数によって支配されていることを示す。
そこで,Mixture-of-Experts (MoE) は,注目ブロックの投影を含む,モデルのすべての線形層におけるMoEを学習する。
- 参考スコア(独自算出の注目度): 88.33936714942996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense linear layers are the dominant computational bottleneck in large neural networks, presenting a critical need for more efficient alternatives. Previous efforts focused on a small number of hand-crafted structured matrices and neglected to investigate whether these structures can surpass dense layers in terms of compute-optimal scaling laws when both the model size and training examples are optimally allocated. In this work, we present a unifying framework that enables searching among all linear operators expressible via an Einstein summation. This framework encompasses many previously proposed structures, such as low-rank, Kronecker, Tensor-Train, Block Tensor-Train (BTT), and Monarch, along with many novel structures. To analyze the framework, we develop a taxonomy of all such operators based on their computational and algebraic properties and show that differences in the compute-optimal scaling laws are mostly governed by a small number of variables that we introduce. Namely, a small $\omega$ (which measures parameter sharing) and large $\psi$ (which measures the rank) reliably led to better scaling laws. Guided by the insight that full-rank structures that maximize parameters per unit of compute perform the best, we propose BTT-MoE, a novel Mixture-of-Experts (MoE) architecture obtained by sparsifying computation in the BTT structure. In contrast to the standard sparse MoE for each entire feed-forward network, BTT-MoE learns an MoE in every single linear layer of the model, including the projection matrices in the attention blocks. We find BTT-MoE provides a substantial compute-efficiency gain over dense layers and standard MoE.
- Abstract(参考訳): 密度線形層は、大規模ニューラルネットワークにおいて支配的な計算ボトルネックであり、より効率的な代替手段の必要性を示唆している。
従来は少数の手作り構造体に重点を置き、モデルサイズとトレーニング例の両方を最適に割り当てたときに、これらの構造が計算最適スケーリング法則で高密度層を超過できるかを調査した。
本研究では,アインシュタイン和を通じて表現可能なすべての線形作用素の探索を可能にする統一フレームワークを提案する。
このフレームワークは、低ランク、クローネッカー、テンソル・トレイン、ブロック・テンソル・トレイン(BTT)、モナールなど、これまでに提案された多くの構造を含む。
この枠組みを解析するために、計算的および代数的特性に基づく全ての演算子の分類を開発し、計算-最適スケーリング法則の違いは、導入した少数の変数によって主に支配されていることを示す。
つまり、小さな$\omega$(パラメータの共有を計測する)と大きな$\psi$(ランクを計測する)は、確実にスケーリング法則の改善につながった。
計算単位あたりのパラメータを最大化するフルランク構造が最適であるという知見に導かれて,BTT構造における計算のスパース化によって得られる新しいMixture-of-Experts (MoE)アーキテクチャであるBTT-MoEを提案する。
フィードフォワードネットワーク全体の標準スパースMoEとは対照的に、BTT-MoEは、アテンションブロック内の投影行列を含むモデルのすべての線形層におけるMoEを学習する。
BTT-MoEは高密度層や標準MoEに比べて計算効率が大幅に向上することがわかった。
関連論文リスト
- EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Duo-LLM: A Framework for Studying Adaptive Computation in Large Language Models [16.16372459671255]
大規模言語モデル(LLM)は通常、固定された計算予算を使用してトークンによって出力トークンを生成する。
LLMの各フィードフォワードネットワーク層に小さな補助モジュールを統合する新しいフレームワークを提案する。
訓練されたルータがオーラクルと異なる動作をしており、しばしば準最適解が得られることを示す。
論文 参考訳(メタデータ) (2024-10-01T16:10:21Z) - Building on Efficient Foundations: Effectively Training LLMs with Structured Feedforward Layers [16.253898272659242]
大規模言語モデル(LLM)における最先端の結果は、しばしばスケールに依存し、計算コストがかかる。
本研究は,計算集約型フィードフォワードネットワーク(FFN)を対象とするトランスフォーマーベースLLMに着目した。
広範かつ構造化されたネットワークは、最適なトレードオフにおいて、パラメータが少なく、高密度モデルよりも損失が少ないFLOPをより効率的に活用できることを示す。
論文 参考訳(メタデータ) (2024-06-24T08:43:21Z) - Compute Better Spent: Replacing Dense Layers with Structured Matrices [77.61728033234233]
画像領域における畳み込みネットワークの成功が示すように、高密度行列に対するより効率的な代替手段を同定する。
異なる構造は、しばしばパフォーマンスに不可欠な、非常に異なる初期化尺度と学習率を必要とする。
本稿では,モナール行列を含む新しい行列族Block-Trainを提案する。
論文 参考訳(メタデータ) (2024-06-10T13:25:43Z) - Differentiable Learning of Generalized Structured Matrices for Efficient
Deep Neural Networks [16.546708806547137]
本稿では,高密度非構造体を所望の特性を持つ構造体に置き換えるための効率的なディープニューラルネットワーク(DNN)について検討する。
この課題は、一般的なニューラルネットワークモデルにおける最適な重み行列構造がほとんどの場合不明瞭であり、同じネットワークであっても層ごとに異なるためである。
本稿では,勾配降下による重み行列の効率的な構造を学習するための一般化および微分可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-29T03:07:30Z) - AutoBERT-Zero: Evolving BERT Backbone from Scratch [94.89102524181986]
そこで本稿では,提案するハイブリッドバックボーンアーキテクチャを自動検索するOP-NASアルゴリズムを提案する。
提案するOP-NASの効率を向上させるために,探索アルゴリズムと候補モデルの評価を最適化する。
実験の結果、検索されたアーキテクチャ(AutoBERT-Zero)は、様々な下流タスクにおいてBERTとそのバリエーションの異なるモデル容量を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-07-15T16:46:01Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - Structured Convolutions for Efficient Neural Network Design [65.36569572213027]
畳み込みニューラルネットワーク構築ブロックのテクスト単純構造における冗長性を利用してモデル効率に取り組む。
この分解が2Dカーネルや3Dカーネルだけでなく、完全に接続されたレイヤにも適用可能であることを示す。
論文 参考訳(メタデータ) (2020-08-06T04:38:38Z) - Collegial Ensembles [11.64359837358763]
我々は,群畳み込みと対角線ブロックを用いた実用的アーキテクチャにおいて,コレギアルアンサンブルを効率的に実装可能であることを示す。
また、一つのモデルをトレーニングすることなく、最適なグループ畳み込みモジュールを解析的に導き出すために、我々のフレームワークをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2020-06-13T16:40:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。