論文の概要: FuseGPT: Learnable Layers Fusion of Generative Pre-trained Transformers
- arxiv url: http://arxiv.org/abs/2411.14507v1
- Date: Thu, 21 Nov 2024 09:49:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:04:40.156928
- Title: FuseGPT: Learnable Layers Fusion of Generative Pre-trained Transformers
- Title(参考訳): FuseGPT: 生成前訓練変圧器の学習可能な層融合
- Authors: Zehua Pei, Hui-Ling Zhen, Xianzhi Yu, Sinno Jialin Pan, Mingxuan Yuan, Bei Yu,
- Abstract要約: GPT(Generative Pre-trained Transformer)は、様々な領域で顕著な性能を示す。
近年の研究では、トランスブロック間の冗長性を観察し、重要でないブロックの構造化プルーニングによる圧縮法を開発した。
FuseGPTは, モデル性能を向上するために, 刈り込み変圧器ブロックをリサイクルする新しい手法である。
- 参考スコア(独自算出の注目度): 30.88764351013966
- License:
- Abstract: Generative Pre-trained Transformers (GPTs) have demonstrated remarkable performance across diverse domains through the extensive scaling of model parameters. Recent works observe the redundancy across the transformer blocks and develop compression methods by structured pruning of the unimportant blocks. However, such straightforward elimination will always provide irreversible performance degradation. In this paper, we propose FuseGPT, a novel methodology to recycle the pruned transformer blocks to further recover the model performance. Firstly we introduce a new importance detection metric, Macro Influence (MI), to detect the long-term influence of each transformer block by calculating their loss of information after removal. Then we propose group-level layers fusion, which adopts the parameters in layers of the unimportant blocks and injects them into the corresponding layers inside the neighboring blocks. The fusion is not one-off but through iterative parameter updates by lightweight group-level fine-tuning. Specifically, these injected parameters are frozen but weighted with learnable rank decomposition matrices to reduce the overhead during fine-tuning. Our approach not only works well on large language models but also on large multimodal models. The experiments have shown that, by using modest amounts of data, FuseGPT can outperform previous works in both perplexity and zero-shot task performance.
- Abstract(参考訳): GPT(Generative Pre-trained Transformer)は、モデルパラメータの広範なスケーリングを通じて、様々な領域で顕著な性能を示す。
近年の研究では、トランスブロック間の冗長性を観察し、重要でないブロックの構造化プルーニングによる圧縮法を開発した。
しかし、このような単純な除去は、常に不可逆的なパフォーマンス劣化をもたらす。
本稿では, モデル性能の回復を図るために, 刈り込み変圧器ブロックをリサイクルする新しい手法であるFuseGPTを提案する。
まず,新しい重要度検出指標であるマクロインフルエンス(MI)を導入し,削除後の情報損失を算出して,各変圧器ブロックの長期的影響を検出する。
次に、重要でないブロックの層にパラメータを導入し、隣接するブロック内の対応する層に注入するグループレベルの層融合を提案する。
融合はワンオフではなく、軽量なグループレベルの微調整による反復的なパラメータ更新によって行われる。
具体的には、これらの射出パラメータは凍結されるが、微調整時のオーバーヘッドを低減するために、学習可能な階数分解行列で重み付けされる。
我々のアプローチは、大きな言語モデルだけでなく、大きなマルチモーダルモデルでもうまく機能します。
実験により、控えめな量のデータを使用することで、FuseGPTは、パープレキシティとゼロショットタスクのパフォーマンスの両方において、以前の作業よりも優れた性能を発揮することが示された。
関連論文リスト
- Relaxed Recursive Transformers: Effective Parameter Sharing with Layer-wise LoRA [38.30350849992281]
再帰的(recursive)"言語モデルは、パフォーマンスの損失を最小限に抑えたレイヤ間でパラメータを共有する。
Recursive Transformerは、標準的な事前トレーニングされたトランスフォーマーから効率よく利用できるが、単一のユニークなレイヤブロックしか使用せず、ループ内で何度も繰り返される。
我々のモデルは、類似サイズのバニラ事前学習モデルと知識蒸留ベースラインの両方より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-28T02:15:45Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - Few-Shot Class Incremental Learning via Robust Transformer Approach [16.590193619691416]
Few-Shot Class-Incremental Learningは,データ不足の問題にモデルが直面しているクラス増分学習問題の拡張を提示する。
この問題は、最近のすべての研究が、準最適に実行される畳み込みニューラルネットワークの上に構築されているため、未解決の問題のままである。
本稿では,コンパクト畳み込み変換器を用いたロバスト変換器を提案する。
論文 参考訳(メタデータ) (2024-05-08T03:35:52Z) - MoE-FFD: Mixture of Experts for Generalized and Parameter-Efficient Face Forgery Detection [54.545054873239295]
ディープフェイクは、最近、国民の間で重大な信頼問題とセキュリティ上の懸念を提起した。
ViT法はトランスの表現性を生かし,優れた検出性能を実現する。
この研究は、汎用的でパラメータ効率のよいViTベースのアプローチであるFace Forgery Detection (MoE-FFD)のためのMixture-of-Expertsモジュールを導入する。
論文 参考訳(メタデータ) (2024-04-12T13:02:08Z) - Transformer Fusion with Optimal Transport [25.022849817421964]
Fusionは、独立に訓練された複数のニューラルネットワークをマージして、それらの能力を組み合わせる技術である。
本稿では, トランスポートを利用した2つ以上のトランスフォーマーネットワークを (ソフト) に融合させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-09T13:40:31Z) - Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文 参考訳(メタデータ) (2021-04-20T00:09:37Z) - Of Non-Linearity and Commutativity in BERT [8.295319152986316]
BERTの層間相互作用について検討し,層間構造が何らかの階層構造を示す一方で,ファジィな方法で特徴を抽出することを示した。
その結果、BERTは層可換性に対する誘導バイアスを持っていることが示唆され、これは主にスキップ接続によるものである。
論文 参考訳(メタデータ) (2021-01-12T15:29:38Z) - The Cascade Transformer: an Application for Efficient Answer Sentence
Selection [116.09532365093659]
本稿では,変圧器をベースとしたモデルのカスケード化手法であるカスケード変換器について紹介する。
現状の変圧器モデルと比較すると,提案手法は精度にほとんど影響を与えずに計算量を37%削減する。
論文 参考訳(メタデータ) (2020-05-05T23:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。