論文の概要: Merging Feed-Forward Sublayers for Compressed Transformers
- arxiv url: http://arxiv.org/abs/2501.06126v1
- Date: Fri, 10 Jan 2025 17:25:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:28:21.625306
- Title: Merging Feed-Forward Sublayers for Compressed Transformers
- Title(参考訳): 圧縮変圧器用マージングフィードフォワードサブ層
- Authors: Neha Verma, Kenton Murray, Kevin Duh,
- Abstract要約: モデル内の類似パラメータ群をマージすることで,モデル圧縮に対する新しいアプローチを提案する。
具体的には、Transformerモデルでフィードフォワードサブレイヤを分離し、アライメントし、マージする。
モデルフィードフォワードサブレイヤの3分の1以上を組み合わせながら、元のモデルに匹敵する性能を示す。
- 参考スコア(独自算出の注目度): 16.746335565636976
- License:
- Abstract: With the rise and ubiquity of larger deep learning models, the need for high-quality compression techniques is growing in order to deploy these models widely. The sheer parameter count of these models makes it difficult to fit them into the memory constraints of different hardware. In this work, we present a novel approach to model compression by merging similar parameter groups within a model, rather than pruning away less important parameters. Specifically, we select, align, and merge separate feed-forward sublayers in Transformer models, and test our method on language modeling, image classification, and machine translation. With our method, we demonstrate performance comparable to the original models while combining more than a third of model feed-forward sublayers, and demonstrate improved performance over a strong layer-pruning baseline. For instance, we can remove over 21% of total parameters from a Vision Transformer, while maintaining 99% of its original performance. Additionally, we observe that some groups of feed-forward sublayers exhibit high activation similarity, which may help explain their surprising mergeability.
- Abstract(参考訳): 大規模なディープラーニングモデルの増加と普及に伴い、これらのモデルを広く展開するために高品質な圧縮技術の必要性が高まっている。
これらのモデルの厳密なパラメータカウントは、異なるハードウェアのメモリ制約にそれらを適合させることを困難にしている。
本研究では,より重要度が低いパラメータを抽出する代わりに,モデル内に類似したパラメータ群をマージすることで,モデル圧縮に対する新しいアプローチを提案する。
具体的には、トランスフォーマーモデルにおいてフィードフォワードを分離したサブレイヤを選択し、調整し、マージし、言語モデリング、画像分類、機械翻訳の手法をテストする。
提案手法では, モデルフィードフォワードサブレイヤの3分の1以上を組み合わせながら, 原モデルに匹敵する性能を示し, 強層培養ベースライン上での性能向上を示す。
例えば、元のパフォーマンスの99%を維持しながら、Vision Transformerから合計パラメータの21%以上を削除できます。
さらに, フィードフォワードサブレイヤのいくつかは, 高い活性化類似性を示しており, それらの驚くべきマージ可能性を説明するのに役立つ可能性がある。
関連論文リスト
- EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Merging Text Transformer Models from Different Initializations [6.576256518248877]
異なるTransformer minimaが類似した特徴を学習する程度について検討する。
損失景観におけるこれらのミニマの関係を調べるためのモデルマージ手法を提案する。
以上の結果から,これらのモデルのミニマは従来理解されていたよりもシャープで孤立していないことが明らかとなった。
論文 参考訳(メタデータ) (2024-03-01T21:16:29Z) - USDC: Unified Static and Dynamic Compression for Visual Transformer [17.10536016262485]
ビジュアルトランスフォーマーは、分類、検出など、ほぼすべての視覚タスクで大きな成功を収めています。
しかし、視覚変換器のモデル複雑さと推論速度は、産業製品への展開を妨げる。
様々なモデル圧縮技術は、モデル性能を維持しながら、視覚変換器を直接より小さく圧縮することに重点を置いているが、圧縮比が大きいと性能が劇的に低下する。
動的ネットワーク技術もいくつか適用されており、入力適応効率のよいサブ構造を得るために動的に圧縮し、圧縮比とモデル性能のトレードオフを改善することができる。
論文 参考訳(メタデータ) (2023-10-17T10:04:47Z) - Understanding Parameter Sharing in Transformers [53.75988363281843]
トランスフォーマーに関するこれまでの研究は、異なるレイヤでパラメータを共有することに集中しており、モデルの深さを増大させることで、限られたパラメータを持つモデルの性能を向上させることができる。
このアプローチの成功は, モデル複雑性の増加により, ごく一部に過ぎず, 収束性の向上に大きく寄与することを示す。
8つの機械翻訳タスクの実験結果から,パラメータ共有モデルのモデル複雑性を半分に抑えて,我々のモデルが競合性能を達成することが示された。
論文 参考訳(メタデータ) (2023-06-15T10:48:59Z) - Consolidator: Mergeable Adapter with Grouped Connections for Visual
Adaptation [53.835365470800916]
視覚変換器の知識を効率よく効果的に伝達する方法を示す。
調整可能なパラメータの小さなセットを追加して,事前学習モデルを変更するコンソリケータを提案する。
我々のコンソリエータは、0.35%のパラメータで完全な微調整よりも最大7.56の精度で到達できる。
論文 参考訳(メタデータ) (2023-04-30T23:59:02Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Transformers For Recognition In Overhead Imagery: A Reality Check [0.0]
オーバヘッド画像のための最先端セグメンテーションモデルにトランスフォーマー構造を加えることの影響を比較した。
我々の結果は、トランスフォーマーは一貫性があるが、控えめな、パフォーマンスの向上をもたらすことを示唆している。
論文 参考訳(メタデータ) (2022-10-23T02:17:31Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Normalizing Flows with Multi-Scale Autoregressive Priors [131.895570212956]
マルチスケール自己回帰前処理(mAR)を通した遅延空間におけるチャネルワイド依存性を導入する。
我々のmARは、分割結合フロー層(mAR-SCF)を持つモデルに先立って、複雑なマルチモーダルデータの依存関係をよりよく捉えます。
我々は,mAR-SCFにより画像生成品質が向上し,FIDとインセプションのスコアは最先端のフローベースモデルと比較して向上したことを示す。
論文 参考訳(メタデータ) (2020-04-08T09:07:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。