論文の概要: Towards smaller, faster decoder-only transformers: Architectural variants and their implications
- arxiv url: http://arxiv.org/abs/2404.14462v4
- Date: Tue, 08 Oct 2024 09:20:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:27:21.990403
- Title: Towards smaller, faster decoder-only transformers: Architectural variants and their implications
- Title(参考訳): より小さく、より高速なデコーダのみのトランスフォーマーを目指して--アーキテクチャ的変異とその意味
- Authors: Sathya Krishnan Suresh, Shunmugapriya P,
- Abstract要約: 本稿では,デコーダのみのトランスアーキテクチャであるParallelGPT,LinearGPT,ConvGPTの3つの改良点を紹介する。
これらのバリエーションは、言語生成における従来のアーキテクチャと同等のパフォーマンスを示すが、モデルのサイズを縮小し、より高速なトレーニングプロセスの恩恵を受ける。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In recent times, the research on Large Language Models (LLMs) has grown exponentially, predominantly focusing on models underpinned by the transformer architecture, as established by [1], and further developed through the decoder-only variations by [2]. Contemporary efforts in this field primarily aim to enhance model capabilities by scaling up both the architecture and data volumes utilized during training. However, the exploration into reduce these model sizes while preserving their efficacy remains scant. In this study, we introduce three modifications to the decoder-only transformer architecture, namely ParallelGPT (pgpt), LinearGPT (lgpt), and ConvGPT (cgpt). These variants demonstrate comparable performance to the conventional architecture in language generation, yet benefit from reduced model sizes and faster training processes. We open-source the model weights and the complete codebase for these implementation for further research.
- Abstract(参考訳): 近年、Large Language Models (LLMs) の研究は指数関数的に増加しており、主に [1] が確立した変圧器アーキテクチャに根ざしたモデルに焦点が当てられ、デコーダのみのバリエーション [2] によってさらに発展してきた。
この分野での現在の取り組みは、主に、トレーニング中に使用されるアーキテクチャとデータボリュームの両方をスケールアップすることで、モデル機能を強化することを目的としています。
しかし、これらのモデルのサイズを減らし、有効性を保っているという探索は、いまだに残っていない。
本研究では,デコーダのみのトランスフォーマーアーキテクチャであるParallelGPT(pgpt),LinearGPT(lgpt),ConvGPT(cgpt)の3つの改良点を紹介する。
これらのバリエーションは、言語生成における従来のアーキテクチャと同等のパフォーマンスを示すが、モデルのサイズを縮小し、より高速なトレーニングプロセスの恩恵を受ける。
我々はこれらの実装のためのモデルウェイトと完全なコードベースをオープンソース化し、さらなる研究を行っています。
関連論文リスト
- A Survey on Transformer Compression [84.18094368700379]
自然言語処理(NLP)とコンピュータビジョン(CV)の領域においてトランスフォーマーは重要な役割を果たす
モデル圧縮法は、Transformerのメモリと計算コストを削減する。
この調査は、Transformerベースのモデルに適用することに焦点を当てた、最近の圧縮方法に関する包括的なレビューを提供する。
論文 参考訳(メタデータ) (2024-02-05T12:16:28Z) - Repeat After Me: Transformers are Better than State Space Models at Copying [53.47717661441142]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文 参考訳(メタデータ) (2024-02-01T21:44:11Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。
言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文 参考訳(メタデータ) (2023-03-02T05:21:18Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - Knowledge Distillation in Vision Transformers: A Critical Review [6.508088032296086]
ビジョントランスフォーマー(ViT)は、畳み込みニューラルネットワーク(CNN)よりも優れたパフォーマンス向上を実証した。
モデル圧縮は、最近、潜在的治療としてかなりの研究の注目を集めている。
本稿では、VTモデルの効率的な圧縮のためのKDに基づく様々なアプローチについて論じる。
論文 参考訳(メタデータ) (2023-02-04T06:30:57Z) - Yformer: U-Net Inspired Transformer Architecture for Far Horizon Time
Series Forecasting [0.0]
Y-Netにインスパイアされた新しいY字型エンコーダデコーダアーキテクチャは、ダウンスケールのエンコーダ層から対応するアップサンプリングデコーダ層への直接接続を利用する。
4つのベンチマークデータセットに対する関連するベースラインで実験が行われ、平均的な改善は19.82、18.41、13.62、11.85、MAEである。
論文 参考訳(メタデータ) (2021-10-13T13:35:54Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。