論文の概要: Relaxed Recursive Transformers: Effective Parameter Sharing with Layer-wise LoRA
- arxiv url: http://arxiv.org/abs/2410.20672v1
- Date: Mon, 28 Oct 2024 02:15:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:17:33.506735
- Title: Relaxed Recursive Transformers: Effective Parameter Sharing with Layer-wise LoRA
- Title(参考訳): Relaxed Recursive Transformer:Layer-wise LoRAを用いた有効パラメータ共有
- Authors: Sangmin Bae, Adam Fisch, Hrayr Harutyunyan, Ziwei Ji, Seungyeon Kim, Tal Schuster,
- Abstract要約: 再帰的(recursive)"言語モデルは、パフォーマンスの損失を最小限に抑えたレイヤ間でパラメータを共有する。
Recursive Transformerは、標準的な事前トレーニングされたトランスフォーマーから効率よく利用できるが、単一のユニークなレイヤブロックしか使用せず、ループ内で何度も繰り返される。
我々のモデルは、類似サイズのバニラ事前学習モデルと知識蒸留ベースラインの両方より優れていることを示す。
- 参考スコア(独自算出の注目度): 38.30350849992281
- License:
- Abstract: Large language models (LLMs) are expensive to deploy. Parameter sharing offers a possible path towards reducing their size and cost, but its effectiveness in modern LLMs remains fairly limited. In this work, we revisit "layer tying" as form of parameter sharing in Transformers, and introduce novel methods for converting existing LLMs into smaller "Recursive Transformers" that share parameters across layers, with minimal loss of performance. Here, our Recursive Transformers are efficiently initialized from standard pretrained Transformers, but only use a single block of unique layers that is then repeated multiple times in a loop. We further improve performance by introducing Relaxed Recursive Transformers that add flexibility to the layer tying constraint via depth-wise low-rank adaptation (LoRA) modules, yet still preserve the compactness of the overall model. We show that our recursive models (e.g., recursive Gemma 1B) outperform both similar-sized vanilla pretrained models (such as TinyLlama 1.1B and Pythia 1B) and knowledge distillation baselines -- and can even recover most of the performance of the original "full-size" model (e.g., Gemma 2B with no shared parameters). Finally, we propose Continuous Depth-wise Batching, a promising new inference paradigm enabled by the Recursive Transformer when paired with early exiting. In a theoretical analysis, we show that this has the potential to lead to significant (2-3x) gains in inference throughput.
- Abstract(参考訳): 大規模言語モデル(LLM)のデプロイには費用がかかる。
パラメータ共有は、そのサイズとコストを削減するための道筋を提供するが、現代のLLMでは、その有効性はかなり限られている。
本研究では、トランスフォーマーにおけるパラメータ共有の形式として「レイヤタイリング」を再検討し、既存のLCMを小さな「再帰トランスフォーマー」に変換する新しい手法を導入する。
ここでは、Recursive Transformerは、標準的な事前訓練されたトランスフォーマーから効率よく初期化されますが、単一のユニークなレイヤブロックしか使用せず、ループ内で何度も繰り返します。
我々は、深度ワイドローランク適応(LoRA)モジュールを介して拘束層に柔軟性を付加するRelaxed Recursive Transformerを導入することにより、性能をさらに向上するが、全体的なモデルのコンパクト性は保たれる。
再帰的モデル(例えば、再帰的Gemma 1B)は、類似サイズのバニラ事前訓練モデル(TinyLlama 1.1B や Pythia 1B など)と知識蒸留ベースラインの両方を上回り、元の "full-size" モデル(例えば、Gemma 2B は共有パラメータを持たない)の性能を回復できることを示す。
最後に,Recursive Transformerが早期終了と組み合わせることで実現可能な,将来性のある新しい推論パラダイムであるContinuous Depth-wise Batchingを提案する。
理論的解析において、これは推論スループットにおいて大きな(2-3x)ゲインをもたらす可能性があることを示す。
関連論文リスト
- FuseGPT: Learnable Layers Fusion of Generative Pre-trained Transformers [30.88764351013966]
GPT(Generative Pre-trained Transformer)は、様々な領域で顕著な性能を示す。
近年の研究では、トランスブロック間の冗長性を観察し、重要でないブロックの構造化プルーニングによる圧縮法を開発した。
FuseGPTは, モデル性能を向上するために, 刈り込み変圧器ブロックをリサイクルする新しい手法である。
論文 参考訳(メタデータ) (2024-11-21T09:49:28Z) - On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
多様なタスクを伴う線形回帰のための文脈内学習について検討する。
We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文 参考訳(メタデータ) (2024-10-29T03:27:56Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - ResidualTransformer: Residual Low-Rank Learning with Weight-Sharing for
Transformer Layers [38.310917646404576]
常時オンのデバイスのメモリ制約は、音声処理モデルをデプロイする際の大きな懸念点の1つである。
本稿では,Residual Transformer という手法を提案する。トランスフォーマー層内の各重み行列は,1) 隣接層との共有フルランク成分と,2) 独自の低ランク成分とを含む。
10k時間音声認識および音声翻訳タスクの実験により,トランスフォーマーエンコーダのサイズを3倍に小さくすることができ,性能の低下が極めて少ないことがわかった。
論文 参考訳(メタデータ) (2023-10-03T23:31:48Z) - READ: Recurrent Adaptation of Large Transformers [7.982905666062059]
モデルサイズとタスク数が増加するにつれて、微調整の大規模トランスフォーマーは実用的ではない。
textbfREcurrent textbfADaption (READ) を導入する。
論文 参考訳(メタデータ) (2023-05-24T16:59:41Z) - A Fast Post-Training Pruning Framework for Transformers [74.59556951906468]
プルーニングは、大きなTransformerモデルの巨大な推論コストを削減する効果的な方法である。
モデルプルーニングの以前の作業では、モデルの再トレーニングが必要だった。
本稿では,再学習を必要としないトランスフォーマーのための高速な訓練後プルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T07:41:11Z) - Learning Bounded Context-Free-Grammar via LSTM and the
Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。
実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。
本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
論文 参考訳(メタデータ) (2021-12-16T19:56:44Z) - Sliced Recursive Transformer [23.899076070924153]
視覚変換器における再帰操作は、追加パラメータを伴わずにパラメータ利用を改善することができる。
我々のモデル Sliced Recursive Transformer (SReT) は、効率的な視覚変換のための様々な設計と互換性がある。
論文 参考訳(メタデータ) (2021-11-09T17:59:14Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。