Fugu-MT 論文翻訳(概要): Reducing the Transformer Architecture to a Minimum

論文の概要: Reducing the Transformer Architecture to a Minimum

arxiv url: http://arxiv.org/abs/2410.13732v1
Date: Thu, 17 Oct 2024 16:36:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.030178
Title: Reducing the Transformer Architecture to a Minimum
Title（参考訳）: トランスフォーマーアーキテクチャの最小化
Authors: Bernhard Bermeitinger, Tomas Hrycej, Massimo Pavone, Julianus Kath, Siegfried Handschuh,
Abstract要約: トランスフォーマーは、特に自然言語処理(NLP)とコンピュータビジョン(CV)において、広く成功しているモデルアーキテクチャである。注意機構自体は、その内部的な類似度測定によって非線形である。 MNISTとCIFAR-10という,広範なCVベンチマークを試験して,その基盤を築き上げた。
参考スコア（独自算出の注目度）: 5.352839075466439
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Transformers are a widespread and successful model architecture, particularly in Natural Language Processing (NLP) and Computer Vision (CV). The essential innovation of this architecture is the Attention Mechanism, which solves the problem of extracting relevant context information from long sequences in NLP and realistic scenes in CV. A classical neural network component, a Multi-Layer Perceptron (MLP), complements the attention mechanism. Its necessity is frequently justified by its capability of modeling nonlinear relationships. However, the attention mechanism itself is nonlinear through its internal use of similarity measures. A possible hypothesis is that this nonlinearity is sufficient for modeling typical application problems. As the MLPs usually contain the most trainable parameters of the whole model, their omission would substantially reduce the parameter set size. Further components can also be reorganized to reduce the number of parameters. Under some conditions, query and key matrices can be collapsed into a single matrix of the same size. The same is true about value and projection matrices, which can also be omitted without eliminating the substance of the attention mechanism. Initially, the similarity measure was defined asymmetrically, with peculiar properties such as that a token is possibly dissimilar to itself. A possible symmetric definition requires only half of the parameters. We have laid the groundwork by testing widespread CV benchmarks: MNIST and CIFAR-10. The tests have shown that simplified transformer architectures (a) without MLP, (b) with collapsed matrices, and (c) symmetric similarity matrices exhibit similar performance as the original architecture, saving up to 90% of parameters without hurting the classification performance.
Abstract（参考訳）: トランスフォーマーは、特に自然言語処理(NLP)とコンピュータビジョン(CV)において、広く成功しているモデルアーキテクチャである。このアーキテクチャの重要な革新は注意メカニズムであり、NLPの長いシーケンスやCVの現実的なシーンから関連するコンテキスト情報を抽出する問題の解決である。従来のニューラルネットワークコンポーネントであるMulti-Layer Perceptron (MLP)は、アテンションメカニズムを補完する。その必要性は、非線形関係をモデル化する能力によってしばしば正当化される。しかし、アテンション機構自体は、その内部的な類似度測定によって非線形である。この非線形性は典型的な応用問題をモデル化するのに十分である、という仮説が考えられる。 MLPは通常、モデル全体の最も訓練可能なパラメータを含むため、その欠落はパラメータセットのサイズを大幅に削減する。さらに、パラメータの数を減らすために、コンポーネントを再編成することもできる。ある条件下では、クエリとキー行列は同じサイズの単一の行列に分解することができる。値と投影行列についても同様であり、注意機構の物質を排除せずに省略することもできる。当初、類似度測度は非対称的に定義され、トークンがそれ自身と相似であるような特異な性質を持つ。対称の定義はパラメータの半分しか必要としない。 MNISTとCIFAR-10という,広範なCVベンチマークを試験して,その基盤を築き上げた。単純化されたトランスフォーマーアーキテクチャが示すテスト (a) MLPなし (b)崩壊した行列で、 (c)対称類似度行列は、元のアーキテクチャと同等の性能を示し、分類性能を損なうことなく、最大90%のパラメータを節約できる。

関連論文リスト

Share Your Attention: Transformer Weight Sharing via Matrix-based Dictionary Learning [6.346469177254699]
本稿ではトランス層間における重み共有の構造化フレームワークを提案する。 CNNにおける辞書学習に着想を得て,トランスフォーマー層間の重み共有を構造化するためのフレームワークを提案する。提案手法は,アテンション投影行列を共有辞書原子に分解し,アテンションモジュールのパラメータを66.7%削減する。
論文参考訳（メタデータ） (2025-08-06T16:06:43Z)
QR-LoRA: Efficient and Disentangled Fine-tuning via QR Decomposition for Customized Generation [52.024845354511555]
構造化パラメータ更新にQR分解を利用する新しい微調整フレームワークであるQR-LoRAを提案する。我々の重要な洞察は、Q行列が視覚的特徴間の干渉を自然に最小化することである。 QR-LoRAは、コンテンツスタイルの融合タスクにおいて、より優れた絡み合いを実現することを示す実験である。
論文参考訳（メタデータ） (2025-07-07T01:31:01Z)
Generalized Linear Mode Connectivity for Transformers [87.32299363530996]
驚くべき現象はリニアモード接続(LMC)であり、独立に訓練されたモデルを低損失またはゼロ損失の経路で接続することができる。以前の研究は主に置換によるニューロンの並べ替えに焦点を合わせてきたが、そのようなアプローチは範囲に限られている。我々は、4つの対称性クラス(置換、半置換、変換、一般可逆写像)をキャプチャする統一的なフレームワークを導入する。この一般化により、独立に訓練された視覚変換器とGPT-2モデルの間の低障壁とゼロバリア線形経路の発見が可能となった。
論文参考訳（メタデータ） (2025-06-28T01:46:36Z)
Scaling Probabilistic Circuits via Monarch Matrices [109.65822339230853]
確率回路(PC)は確率分布の抽出可能な表現である。そこで本研究では,PCの和ブロックに対する新しいスパースパラメータと構造化パラメータ化を提案する。
論文参考訳（メタデータ） (2025-06-14T07:39:15Z)
Spectral Normalization and Voigt-Reuss net: A universal approach to microstructure-property forecasting with physical guarantees [0.0]
設計プロセスにおける重要なステップは、効果的な機械的、熱的、あるいは一般的には弾性特性の迅速な評価である。古典的なシミュレーションに基づくアプローチは、例えば有限要素やFFTベースの解法を使うが、かなりの計算資源を必要とする。本稿では,これらの境界を優先的に適用するスペクトル正規化手法を提案する。
論文参考訳（メタデータ） (2025-04-01T12:21:57Z)
A Hybrid Transformer Architecture with a Quantized Self-Attention Mechanism Applied to Molecular Generation [0.0]
本稿では,トランスデコーダの一部として,量子古典的自己アテンション機構を提案する。クェリキードット積の時間的複雑さは古典的モデルでは$mathcalO(n2 d)$から量子モデルでは$mathcalO(n2 d)$に減少する。この研究は、量子化自然言語処理(NLP)のための有望な道を提供する。
論文参考訳（メタデータ） (2025-02-26T15:15:01Z)
Kolmogorov GAM Networks are all you need! [0.6906005491572398]
Kolmogorov GAMネットワークは、トレーニングと推論のための効率的なアーキテクチャであることが示されている。それらは、関心の関数に依存しない埋め込みを持つ加法モデルである。
論文参考訳（メタデータ） (2025-01-01T02:46:00Z)
Locating Information in Large Language Models via Random Matrix Theory [0.0]
我々は,事前学習した変換器モデルBERTとLlamaの重量行列を解析した。訓練後に偏差が出現しモデル内の学習された構造が特定できますその結果、微調整後、小さな特異値がモデルの能力に重要な役割を果たすことが明らかとなった。
論文参考訳（メタデータ） (2024-10-23T11:19:08Z)
Incorporating Arbitrary Matrix Group Equivariance into KANs [69.30866522377694]
Kolmogorov-Arnold Networks (KAN) は科学分野で大きな成功を収めている。しかし、スプライン関数は、機械学習において重要な事前知識であるタスクの対称性を尊重しないかもしれない。本研究では,Equivariant Kolmogorov-Arnold Networks (EKAN)を提案する。
論文参考訳（メタデータ） (2024-10-01T06:34:58Z)
Similarity Equivariant Graph Neural Networks for Homogenization of Metamaterials [3.6443770850509423]
ソフトで多孔質なメカニカルメタマテリアルは、ソフトロボティクス、音の低減、バイオメディシンに重要な応用をもたらすパターン変換を示す。我々は、代理モデルとして機能するために好意的にスケールする機械学習ベースのアプローチを開発する。このネットワークは、対称性の少ないグラフニューラルネットワークよりも正確で、データ効率が高いことを示す。
論文参考訳（メタデータ） (2024-04-26T12:30:32Z)
Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文参考訳（メタデータ） (2024-02-26T05:51:47Z)
Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文参考訳（メタデータ） (2023-08-31T17:57:50Z)
FAENet: Frame Averaging Equivariant GNN for Materials Modeling [123.19473575281357]
データ変換による任意のモデルE(3)-同変や不変化を実現するために,フレームアラグリング(SFA)に依存したフレキシブルなフレームワークを導入する。本手法の有効性を理論的および実験的に証明し, 材料モデリングにおける精度と計算スケーラビリティを実証する。
論文参考訳（メタデータ） (2023-04-28T21:48:31Z)
Scaling Pre-trained Language Models to Deeper via Parameter-efficient Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。 MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文参考訳（メタデータ） (2023-03-27T02:34:09Z)
Exact Decomposition of Joint Low Rankness and Local Smoothness Plus Sparse Matrices [39.47324019377441]
3次元相関総変分正規化(略して3DCTV-RPCA)に基づく新しいRPCAモデルを提案する。いくつかの軽微な仮定の下で、提案した3DCTV-RPCAモデルが両方のコンポーネントを正確に分解できることを示す。
論文参考訳（メタデータ） (2022-01-29T13:58:03Z)
Understanding Implicit Regularization in Over-Parameterized Single Index Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。暗黙正則化現象の理論的保証を提供する。
論文参考訳（メタデータ） (2020-07-16T13:27:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。