論文の概要: Share Your Attention: Transformer Weight Sharing via Matrix-based Dictionary Learning
- arxiv url: http://arxiv.org/abs/2508.04581v1
- Date: Wed, 06 Aug 2025 16:06:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.809901
- Title: Share Your Attention: Transformer Weight Sharing via Matrix-based Dictionary Learning
- Title(参考訳): 意識を共有する:マトリックスベースの辞書学習によるトランスフォーマーウェイトシェア
- Authors: Magauiya Zhussip, Dmitriy Shopkhoev, Ammar Ali, Stamatios Lefkimmiatis,
- Abstract要約: 本稿ではトランス層間における重み共有の構造化フレームワークを提案する。
CNNにおける辞書学習に着想を得て,トランスフォーマー層間の重み共有を構造化するためのフレームワークを提案する。
提案手法は,アテンション投影行列を共有辞書原子に分解し,アテンションモジュールのパラメータを66.7%削減する。
- 参考スコア(独自算出の注目度): 6.346469177254699
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have revolutionized AI applications, yet their high computational and memory demands hinder their widespread deployment. Existing compression techniques focus on intra-block optimizations (e.g. low-rank approximation, attention head pruning), while the repetitive layered structure of transformers implies significant inter-block redundancy - a dimension largely unexplored beyond key-value (KV) caching. Inspired by dictionary learning in CNNs, we propose a framework for structured weight sharing across transformer layers. Our approach decomposes attention projection matrices into shared dictionary atoms, reducing the attention module's parameters by 66.7% while achieving on-par performance. Unlike complex methods requiring distillation or architectural changes, MASA (Matrix Atom Sharing in Attention) operates as a drop-in replacement - trained with standard optimizers - and represents each layer's weights as linear combinations of shared matrix atoms. Experiments across scales (100M-700M parameters) show that MASA achieves better benchmark accuracy and perplexity than grouped-query attention (GQA), low-rank baselines and recently proposed Repeat-all-over/Sequential sharing at comparable parameter budgets. Ablation studies confirm robustness to the dictionary size and the efficacy of shared representations in capturing cross-layer statistical regularities. Extending to Vision Transformers (ViT), MASA matches performance metrics on image classification and detection tasks with 66.7% fewer attention parameters. By combining dictionary learning strategies with transformer efficiency, MASA offers a scalable blueprint for parameter-efficient models without sacrificing performance. Finally, we investigate the possibility of employing MASA on pretrained LLMs to reduce their number of parameters without experiencing any significant drop in their performance.
- Abstract(参考訳): 大規模言語モデル(LLM)は、AIアプリケーションに革命をもたらしたが、その高い計算量とメモリ要求は、その広範な展開を妨げる。
既存の圧縮技術はブロック内最適化(例えば、低ランク近似、アテンションヘッドプルーニング)に重点を置いているが、トランスフォーマーの繰り返し層構造は、キー値(KV)キャッシングを超える次元のブロック間冗長性を示唆している。
CNNにおける辞書学習に着想を得て,トランスフォーマー層間の重み共有を構造化するためのフレームワークを提案する。
提案手法は,アテンション予測行列を共有辞書原子に分解し,アテンションモジュールのパラメータを66.7%削減し,オンパー性能を実現する。
蒸留やアーキテクチャの変更を必要とする複雑な方法とは異なり、MASA(Matrix Atom Sharing in Attention)は標準オプティマイザで訓練されたドロップイン代替として動作し、各レイヤの重みを共有マトリックス原子の線形結合として表現する。
スケール(100M-700Mパラメータ)にわたる実験により、MASAはグループクエリアテンション(GQA)、低ランクベースライン、そして最近提案されたRepeat-all-over/Sequential共有よりも、ベンチマーク精度とパープレキシティが向上していることが示された。
アブレーション研究は、多層統計正規性を捉える上で、辞書サイズと共有表現の有効性にロバスト性を示す。
視覚変換器(ViT)の拡張により、MASAは画像の分類と検出タスクのパフォーマンス指標を66.7%減少させる。
辞書学習戦略と変圧器効率を組み合わせることで、MASAは性能を犠牲にすることなくパラメータ効率の良いモデルのスケーラブルな青写真を提供する。
最後に,事前学習したLLMにMASAを用いてパラメータ数を削減できる可能性について検討した。
関連論文リスト
- MGAA: Multi-Granular Adaptive Allocation fof Low-Rank Compression of LLMs [9.244526043014098]
MGAA (Multi-Granular Adaptive Allocation) 法は, 圧縮過程においてタスク固有の評価を伴わずに, サブレイヤ内およびサブレイヤ間のパラメータを適応的に割り当てることができる。
複数のLLMのバックボーンモデルとベンチマークデータセットによるMGAAの総合評価は、その優れた性能を示している。
論文 参考訳(メタデータ) (2025-07-04T04:54:01Z) - Transformer Meets Twicing: Harnessing Unattended Residual Information [2.1605931466490795]
トランスフォーマーベースのディープラーニングモデルは、多くの言語やビジョンタスクで最先端のパフォーマンスを達成した。
自己注意機構は複雑なデータパターンを扱えることが証明されているが、注意行列の表現能力はトランスフォーマー層間で著しく低下する。
本研究では,NLM平滑化の低パス動作を軽減するため,非パラメトリック回帰におけるカーネルツイシング手順を用いた新しいアテンション機構であるTwicing Attentionを提案する。
論文 参考訳(メタデータ) (2025-03-02T01:56:35Z) - Tensor Product Attention Is All You Need [53.69820973900921]
プロダクトアテンション(TPA)は、テンソル分解を使用してクエリ、キー、値をコンパクトに表現する新しいアテンションメカニズムである。
TPAは、メモリ効率とともに改善されたモデル品質を実現する。
TPAに基づいて、シーケンスモデリングのための新しいモデルアーキテクチャであるProduct Attention Transformer(T6)を紹介する。
論文 参考訳(メタデータ) (2025-01-11T03:37:10Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - EchoAtt: Attend, Copy, then Adjust for More Efficient Large Language Models [29.57891007810509]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて優れた性能を示している。
本稿では,レイヤ間の注目パターンの類似性を解析し,活用することにより,トランスフォーマーベースモデルの最適化を目的とした,新しいフレームワークであるEchoAttを紹介する。
TinyLLaMA-1.1Bによる最良の結果は、EchoAttが推論速度を15%改善し、トレーニング速度を25%改善し、パラメータ数を約4%削減し、ゼロショット性能を改善したことを示している。
論文 参考訳(メタデータ) (2024-09-22T21:08:37Z) - Sharing Key Semantics in Transformer Makes Efficient Image Restoration [148.22790334216117]
視覚変換器(ViT)の基盤となる自己注意機構は、すべてのグローバルな手がかりを包含する傾向がある。
劣化した画像の小さな部分、特にセマンティックに密に整合した部分では、回復プロセスを支援するために特に関連する情報を提供する。
本稿では, IR(e, SemanIR) 用の Transformer を通じて鍵セマンティクスを共有することで, IR の性能向上を提案する。
論文 参考訳(メタデータ) (2024-05-30T12:45:34Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Language model compression with weighted low-rank factorization [73.61874728240568]
本稿では,モデル予測に影響を及ぼすパラメータの重要性を評価するために,フィッシャー情報を紹介する。
結果のタスク精度は、元のモデルの性能にかなり近いことがわかった。
提案手法は,タスク固有のモデルを直接圧縮し,他のコンパクトモデル戦略よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-06-30T21:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。