論文の概要: DYAD: A Descriptive Yet Abjuring Density efficient approximation to
linear neural network layers
- arxiv url: http://arxiv.org/abs/2312.06881v1
- Date: Mon, 11 Dec 2023 23:04:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 18:00:50.681587
- Title: DYAD: A Descriptive Yet Abjuring Density efficient approximation to
linear neural network layers
- Title(参考訳): dyad: 線形ニューラルネットワーク層に対する密度効率のよい近似
- Authors: Sarin Chandy, Varun Gangal, Yi Yang, Gabriel Maggiotti
- Abstract要約: 我々はDYADを考案し、実装し、性能評価する。DYADは線形層を高速でよりメモリ効率の良い近似的に置き換えることができる。
DYADは、行列がそのような層、a.a.DENSEの典型的な実現において入力を乗算する濃厚な「重い」行列Wを近似するベスポーク近傍スパース行列構造に基づいている。
- 参考スコア(独自算出の注目度): 19.949611634077634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We devise, implement and performance-asses DYAD, a layer which can serve as a
faster and more memory-efficient approximate replacement for linear layers,
(nn.Linear() in Pytorch). These layers appear in common subcomponents, such as
in the ff module of Transformers. DYAD is based on a bespoke near-sparse matrix
structure which approximates the dense "weight" matrix W that matrix-multiplies
the input in the typical realization of such a layer, a.k.a DENSE. Our
alternative near-sparse matrix structure is decomposable to a sum of 2 matrices
permutable to a block-sparse counterpart. These can be represented as 3D
tensors, which in unison allow a faster execution of matrix multiplication with
the mini-batched input matrix X compared to DENSE (O(rows(W ) x cols(W )) -->
O( rows(W ) x cols(W ) # of blocks )). As the crux of our experiments, we
pretrain both DYAD and DENSE variants of 2 sizes of the OPT arch and 1 size of
the Pythia arch, including at different token scales of the babyLM benchmark.
We find DYAD to be competitive (>= 90%) of DENSE performance on zero-shot (e.g.
BLIMP), few-shot (OPENLM) and finetuning (GLUE) benchmarks, while being >=7-15%
faster to train on-GPU even at 125m scale, besides surfacing larger speedups at
increasing scale and model width.
- Abstract(参考訳): 我々は、線形層(Pytorchのnn.Linear())の高速でメモリ効率の良い近似置換として機能するDYADを考案し、実装し、性能評価する。
これらの層は、トランスフォーマーのffモジュールのように、共通のサブコンポーネントに現れる。
dyad は、そのような層、すなわち密度層(英語版)の典型的な実現において、行列が入力を乗算する密度の「重み」行列 w を近似するbespoke near-sparse matrix structure に基づいている。
我々の代替の準スパース行列構造は、ブロックスパース行列に置換可能な2つの行列の和に分解可能である。
これらは3dテンソルとして表現でき、ユニゾンでは、最小にバッチされた入力行列 x と密度の高い (o(rows(w ) x cols(w )) --> o(rows(w ) x cols(w ) # of blocks )) と比較してより高速に行列乗算を実行することができる。
実験のcruxとして、我々はdyadとopt archの2つのサイズとpythia archの1つのサイズの両方を事前学習し、babylmベンチマークの様々なトークンスケールでトレーニングしました。
DYADはゼロショット(BLIMPなど)、少数ショット(OPENLM)、微調整(GLUE)ベンチマークでのDENSE性能の競争力 (>=90%) であり、125mスケールでもGPUのトレーニングを7-15%高速化し、スケールとモデル幅の増大でより大きなスピードアップを達成している。
関連論文リスト
- Two Sparse Matrices are Better than One: Sparsifying Neural Networks with Double Sparse Factorization [0.0]
重み行列を2つのスパース行列に分解するDouble Sparse Factorization(DSF)を提案する。
提案手法は最先端の結果を達成し,従来のニューラルネットワークのスペーサー化を可能にした。
論文 参考訳(メタデータ) (2024-09-27T15:48:39Z) - Compute Better Spent: Replacing Dense Layers with Structured Matrices [77.61728033234233]
画像領域における畳み込みネットワークの成功が示すように、高密度行列に対するより効率的な代替手段を同定する。
異なる構造は、しばしばパフォーマンスに不可欠な、非常に異なる初期化尺度と学習率を必要とする。
本稿では,モナール行列を含む新しい行列族Block-Trainを提案する。
論文 参考訳(メタデータ) (2024-06-10T13:25:43Z) - Multi-level projection with exponential parallel speedup; Application to sparse auto-encoders neural networks [2.264332709661011]
ell_1,infty$ノルムの時間複雑性は、$mathbbRntimes m$の行列に対して$mathcalObig(n m big)$のみであることを示す。
実験により、我々の予測は、実際の最速のユークリッドアルゴリズムの2倍高速であることが示されている。
論文 参考訳(メタデータ) (2024-05-03T13:21:49Z) - PopSparse: Accelerated block sparse matrix multiplication on IPU [0.5661403709207713]
本稿では,Graphcore IPU上での高速スパース操作を実現するライブラリであるPopSparseを紹介する。
静的、コンパイル時にスパーシティパターンが固定される、動的、モデルの実行毎に変更される、という2つの異なるタイプのスパーシリティをターゲットにしています。
その結果,PopSparse の実装は IPU 上での高密度行列乗算よりも幅広い範囲で高速であることが示唆された。
論文 参考訳(メタデータ) (2023-03-29T20:00:19Z) - Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。
本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文 参考訳(メタデータ) (2022-07-09T09:14:12Z) - Monarch: Expressive Structured Matrices for Efficient and Accurate
Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。
計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。
ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文 参考訳(メタデータ) (2022-04-01T17:37:29Z) - Fast Differentiable Matrix Square Root and Inverse Square Root [65.67315418971688]
微分可能な行列平方根と逆平方根を計算するためのより効率的な2つの変種を提案する。
前方伝搬には, Matrix Taylor Polynomial (MTP) を用いる方法と, Matrix Pad'e Approximants (MPA) を使用する方法がある。
一連の数値実験により、両方の手法がSVDやNSの繰り返しと比較してかなりスピードアップすることが示された。
論文 参考訳(メタデータ) (2022-01-29T10:00:35Z) - Unfolding Projection-free SDP Relaxation of Binary Graph Classifier via
GDPA Linearization [59.87663954467815]
アルゴリズムの展開は、モデルベースのアルゴリズムの各イテレーションをニューラルネットワーク層として実装することにより、解釈可能で類似のニューラルネットワークアーキテクチャを生成する。
本稿では、Gershgorin disc perfect alignment (GDPA)と呼ばれる最近の線形代数定理を利用して、二進グラフの半定値プログラミング緩和(SDR)のためのプロジェクションフリーアルゴリズムをアンロールする。
実験結果から,我々の未学習ネットワークは純粋モデルベースグラフ分類器よりも優れ,純粋データ駆動ネットワークに匹敵する性能を示したが,パラメータははるかに少なかった。
論文 参考訳(メタデータ) (2021-09-10T07:01:15Z) - VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。
textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文 参考訳(メタデータ) (2021-05-04T04:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。