論文の概要: Reducing the Transformer Architecture to a Minimum
- arxiv url: http://arxiv.org/abs/2410.13732v2
- Date: Tue, 29 Oct 2024 14:13:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 20:19:42.053772
- Title: Reducing the Transformer Architecture to a Minimum
- Title(参考訳): トランスフォーマーアーキテクチャの最小化
- Authors: Bernhard Bermeitinger, Tomas Hrycej, Massimo Pavone, Julianus Kath, Siegfried Handschuh,
- Abstract要約: トランスフォーマーは、特に自然言語処理(NLP)とコンピュータビジョン(CV)において、広く成功しているモデルアーキテクチャである。
注意機構自体は、その内部的な類似度測定によって非線形である。
MNISTとCIFAR-10という,広範なCVベンチマークを試験して,その基盤を築き上げた。
- 参考スコア(独自算出の注目度): 5.352839075466439
- License:
- Abstract: Transformers are a widespread and successful model architecture, particularly in Natural Language Processing (NLP) and Computer Vision (CV). The essential innovation of this architecture is the Attention Mechanism, which solves the problem of extracting relevant context information from long sequences in NLP and realistic scenes in CV. A classical neural network component, a Multi-Layer Perceptron (MLP), complements the attention mechanism. Its necessity is frequently justified by its capability of modeling nonlinear relationships. However, the attention mechanism itself is nonlinear through its internal use of similarity measures. A possible hypothesis is that this nonlinearity is sufficient for modeling typical application problems. As the MLPs usually contain the most trainable parameters of the whole model, their omission would substantially reduce the parameter set size. Further components can also be reorganized to reduce the number of parameters. Under some conditions, query and key matrices can be collapsed into a single matrix of the same size. The same is true about value and projection matrices, which can also be omitted without eliminating the substance of the attention mechanism. Initially, the similarity measure was defined asymmetrically, with peculiar properties such as that a token is possibly dissimilar to itself. A possible symmetric definition requires only half of the parameters. We have laid the groundwork by testing widespread CV benchmarks: MNIST and CIFAR-10. The tests have shown that simplified transformer architectures (a) without MLP, (b) with collapsed matrices, and (c) symmetric similarity matrices exhibit similar performance as the original architecture, saving up to 90% of parameters without hurting the classification performance.
- Abstract(参考訳): トランスフォーマーは、特に自然言語処理(NLP)とコンピュータビジョン(CV)において、広く成功しているモデルアーキテクチャである。
このアーキテクチャの重要な革新は注意メカニズムであり、NLPの長いシーケンスやCVの現実的なシーンから関連するコンテキスト情報を抽出する問題の解決である。
従来のニューラルネットワークコンポーネントであるMulti-Layer Perceptron (MLP)は、アテンションメカニズムを補完する。
その必要性は、非線形関係をモデル化する能力によってしばしば正当化される。
しかし、アテンション機構自体は、その内部的な類似度測定によって非線形である。
この非線形性は典型的な応用問題をモデル化するのに十分である、という仮説が考えられる。
MLPは通常、モデル全体の最も訓練可能なパラメータを含むため、その欠落はパラメータセットのサイズを大幅に削減する。
さらに、パラメータの数を減らすために、コンポーネントを再編成することもできる。
ある条件下では、クエリとキー行列は同じサイズの単一の行列に分解することができる。
値と投影行列についても同様であり、注意機構の物質を排除せずに省略することもできる。
当初、類似度測度は非対称的に定義され、トークンがそれ自身と相似であるような特異な性質を持つ。
対称の定義はパラメータの半分しか必要としない。
MNISTとCIFAR-10という,広範なCVベンチマークを試験して,その基盤を築き上げた。
単純化されたトランスフォーマーアーキテクチャが示すテスト
(a) MLPなし
(b)崩壊した行列で、
(c)対称類似度行列は、元のアーキテクチャと同等の性能を示し、分類性能を損なうことなく、最大90%のパラメータを節約できる。
関連論文リスト
- Locating Information in Large Language Models via Random Matrix Theory [0.0]
我々は,事前学習した変換器モデルBERTとLlamaの重量行列を解析した。
訓練後に偏差が出現し モデル内の学習された構造が特定できます
その結果、微調整後、小さな特異値がモデルの能力に重要な役割を果たすことが明らかとなった。
論文 参考訳(メタデータ) (2024-10-23T11:19:08Z) - Geometry is All You Need: A Unified Taxonomy of Matrix and Tensor Factorization for Compression of Generative Language Models [22.593517716611597]
言語モデルパラメトリゼーションのための行列とテンソル誘導パラメトリゼーションの間の内部リンクは、よく理解されていない。
既存の行列とテンソルの研究は数学が重く、機械学習(ML)やNLPの研究概念から遠く離れている。
本稿では,MLおよびNLP研究において,行列/テンソル圧縮アプローチとモデル圧縮概念を橋渡しする統一分類法を提案する。
論文 参考訳(メタデータ) (2024-10-03T23:12:20Z) - EKAN: Equivariant Kolmogorov-Arnold Networks [69.30866522377694]
Kolmogorov-Arnold Networks (KAN) は科学分野で大きな成功を収めている。
しかし、スプライン関数は、機械学習において重要な事前知識であるタスクの対称性を尊重しないかもしれない。
本研究では,Equivariant Kolmogorov-Arnold Networks (EKAN)を提案する。
論文 参考訳(メタデータ) (2024-10-01T06:34:58Z) - Similarity Equivariant Graph Neural Networks for Homogenization of Metamaterials [3.6443770850509423]
ソフトで多孔質なメカニカルメタマテリアルは、ソフトロボティクス、音の低減、バイオメディシンに重要な応用をもたらすパターン変換を示す。
我々は、代理モデルとして機能するために好意的にスケールする機械学習ベースのアプローチを開発する。
このネットワークは、対称性の少ないグラフニューラルネットワークよりも正確で、データ効率が高いことを示す。
論文 参考訳(メタデータ) (2024-04-26T12:30:32Z) - Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - FAENet: Frame Averaging Equivariant GNN for Materials Modeling [123.19473575281357]
データ変換による任意のモデルE(3)-同変や不変化を実現するために,フレームアラグリング(SFA)に依存したフレキシブルなフレームワークを導入する。
本手法の有効性を理論的および実験的に証明し, 材料モデリングにおける精度と計算スケーラビリティを実証する。
論文 参考訳(メタデータ) (2023-04-28T21:48:31Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Exact Decomposition of Joint Low Rankness and Local Smoothness Plus
Sparse Matrices [39.47324019377441]
3次元相関総変分正規化(略して3DCTV-RPCA)に基づく新しいRPCAモデルを提案する。
いくつかの軽微な仮定の下で、提案した3DCTV-RPCAモデルが両方のコンポーネントを正確に分解できることを示す。
論文 参考訳(メタデータ) (2022-01-29T13:58:03Z) - Understanding Implicit Regularization in Over-Parameterized Single Index
Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。
暗黙正則化現象の理論的保証を提供する。
論文 参考訳(メタデータ) (2020-07-16T13:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。