論文の概要: DYAD: A Descriptive Yet Abjuring Density efficient approximation to
linear neural network layers
- arxiv url: http://arxiv.org/abs/2312.06881v1
- Date: Mon, 11 Dec 2023 23:04:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 18:00:50.681587
- Title: DYAD: A Descriptive Yet Abjuring Density efficient approximation to
linear neural network layers
- Title(参考訳): dyad: 線形ニューラルネットワーク層に対する密度効率のよい近似
- Authors: Sarin Chandy, Varun Gangal, Yi Yang, Gabriel Maggiotti
- Abstract要約: 我々はDYADを考案し、実装し、性能評価する。DYADは線形層を高速でよりメモリ効率の良い近似的に置き換えることができる。
DYADは、行列がそのような層、a.a.DENSEの典型的な実現において入力を乗算する濃厚な「重い」行列Wを近似するベスポーク近傍スパース行列構造に基づいている。
- 参考スコア(独自算出の注目度): 19.949611634077634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We devise, implement and performance-asses DYAD, a layer which can serve as a
faster and more memory-efficient approximate replacement for linear layers,
(nn.Linear() in Pytorch). These layers appear in common subcomponents, such as
in the ff module of Transformers. DYAD is based on a bespoke near-sparse matrix
structure which approximates the dense "weight" matrix W that matrix-multiplies
the input in the typical realization of such a layer, a.k.a DENSE. Our
alternative near-sparse matrix structure is decomposable to a sum of 2 matrices
permutable to a block-sparse counterpart. These can be represented as 3D
tensors, which in unison allow a faster execution of matrix multiplication with
the mini-batched input matrix X compared to DENSE (O(rows(W ) x cols(W )) -->
O( rows(W ) x cols(W ) # of blocks )). As the crux of our experiments, we
pretrain both DYAD and DENSE variants of 2 sizes of the OPT arch and 1 size of
the Pythia arch, including at different token scales of the babyLM benchmark.
We find DYAD to be competitive (>= 90%) of DENSE performance on zero-shot (e.g.
BLIMP), few-shot (OPENLM) and finetuning (GLUE) benchmarks, while being >=7-15%
faster to train on-GPU even at 125m scale, besides surfacing larger speedups at
increasing scale and model width.
- Abstract(参考訳): 我々は、線形層(Pytorchのnn.Linear())の高速でメモリ効率の良い近似置換として機能するDYADを考案し、実装し、性能評価する。
これらの層は、トランスフォーマーのffモジュールのように、共通のサブコンポーネントに現れる。
dyad は、そのような層、すなわち密度層(英語版)の典型的な実現において、行列が入力を乗算する密度の「重み」行列 w を近似するbespoke near-sparse matrix structure に基づいている。
我々の代替の準スパース行列構造は、ブロックスパース行列に置換可能な2つの行列の和に分解可能である。
これらは3dテンソルとして表現でき、ユニゾンでは、最小にバッチされた入力行列 x と密度の高い (o(rows(w ) x cols(w )) --> o(rows(w ) x cols(w ) # of blocks )) と比較してより高速に行列乗算を実行することができる。
実験のcruxとして、我々はdyadとopt archの2つのサイズとpythia archの1つのサイズの両方を事前学習し、babylmベンチマークの様々なトークンスケールでトレーニングしました。
DYADはゼロショット(BLIMPなど)、少数ショット(OPENLM)、微調整(GLUE)ベンチマークでのDENSE性能の競争力 (>=90%) であり、125mスケールでもGPUのトレーニングを7-15%高速化し、スケールとモデル幅の増大でより大きなスピードアップを達成している。
関連論文リスト
- Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - ScatterFormer: Efficient Voxel Transformer with Scattered Linear
Attention [14.601610019806762]
ウィンドウベースのトランスフォーマーは、大規模なクラウド理解において強力な能力を示している。
現在の方法では、各ウィンドウ内のボクセルを同じサイズの複数のサブセットに分割するが、ボクセルのソートとパディングにコストがかかる。
我々はScatterFormerを紹介した。これは私たちの最高の知識に初めて、可変長のボクセル集合に直接注意を向けることができた。
論文 参考訳(メタデータ) (2024-01-01T02:29:59Z) - PopSparse: Accelerated block sparse matrix multiplication on IPU [0.5661403709207713]
本稿では,Graphcore IPU上での高速スパース操作を実現するライブラリであるPopSparseを紹介する。
静的、コンパイル時にスパーシティパターンが固定される、動的、モデルの実行毎に変更される、という2つの異なるタイプのスパーシリティをターゲットにしています。
その結果,PopSparse の実装は IPU 上での高密度行列乗算よりも幅広い範囲で高速であることが示唆された。
論文 参考訳(メタデータ) (2023-03-29T20:00:19Z) - Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。
本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文 参考訳(メタデータ) (2022-07-09T09:14:12Z) - Monarch: Expressive Structured Matrices for Efficient and Accurate
Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。
計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。
ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文 参考訳(メタデータ) (2022-04-01T17:37:29Z) - Fast Differentiable Matrix Square Root and Inverse Square Root [65.67315418971688]
微分可能な行列平方根と逆平方根を計算するためのより効率的な2つの変種を提案する。
前方伝搬には, Matrix Taylor Polynomial (MTP) を用いる方法と, Matrix Pad'e Approximants (MPA) を使用する方法がある。
一連の数値実験により、両方の手法がSVDやNSの繰り返しと比較してかなりスピードアップすることが示された。
論文 参考訳(メタデータ) (2022-01-29T10:00:35Z) - Unfolding Projection-free SDP Relaxation of Binary Graph Classifier via
GDPA Linearization [59.87663954467815]
アルゴリズムの展開は、モデルベースのアルゴリズムの各イテレーションをニューラルネットワーク層として実装することにより、解釈可能で類似のニューラルネットワークアーキテクチャを生成する。
本稿では、Gershgorin disc perfect alignment (GDPA)と呼ばれる最近の線形代数定理を利用して、二進グラフの半定値プログラミング緩和(SDR)のためのプロジェクションフリーアルゴリズムをアンロールする。
実験結果から,我々の未学習ネットワークは純粋モデルベースグラフ分類器よりも優れ,純粋データ駆動ネットワークに匹敵する性能を示したが,パラメータははるかに少なかった。
論文 参考訳(メタデータ) (2021-09-10T07:01:15Z) - 2.5-dimensional distributed model training [7.471658821614902]
本稿では,言語モデル並列化による不要な伝送損失を克服するために,言語モデルのためのSUMMA2.5-LMを提案する。
従来の1次元モデルと2次元モデルの並列化と比較すると,SUMMA2.5-LMは各層での伝送コストを削減でき,効率は1.45倍に向上した。
論文 参考訳(メタデータ) (2021-05-30T11:06:49Z) - VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。
textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文 参考訳(メタデータ) (2021-05-04T04:10:48Z) - Accelerating Sparse DNN Models without Hardware-Support via Tile-Wise
Sparsity [12.643043455369297]
本稿では,既存の高密度アーキテクチャ上での遅延高速化を実現するアルゴリズム-ソフトウェア共設計プルーニング手法を提案する。
我々はGPUテンソルコア上でのスパーシティパターンの実装と評価を行い,高密度モデル上での1.95倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-08-29T16:27:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。