Fugu-MT 論文翻訳(概要): DiJiang: Efficient Large Language Models through Compact Kernelization

論文の概要: DiJiang: Efficient Large Language Models through Compact Kernelization

arxiv url: http://arxiv.org/abs/2403.19928v2
Date: Mon, 1 Apr 2024 09:17:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-02 13:25:26.461346
Title: DiJiang: Efficient Large Language Models through Compact Kernelization
Title（参考訳）: DiJiang: コンパクトカーネル化による効率的な大規模言語モデル
Authors: Hanting Chen, Zhicheng Liu, Xutao Wang, Yuchuan Tian, Yunhe Wang,
Abstract要約: 本稿では、事前学習したバニラ変換器を、トレーニングコストの少ない線形複雑化モデルに変換するための新しい周波数領域カーネル化手法を提案する。実験により,提案手法は元のTransformerに匹敵する性能を示したが,トレーニングコストを大幅に削減し,推論速度を大幅に高速化した。
参考スコア（独自算出の注目度）: 30.24187657746638
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In an effort to reduce the computational load of Transformers, research on linear attention has gained significant momentum. However, the improvement strategies for attention mechanisms typically necessitate extensive retraining, which is impractical for large language models with a vast array of parameters. In this paper, we present DiJiang, a novel Frequency Domain Kernelization approach that enables the transformation of a pre-trained vanilla Transformer into a linear complexity model with little training costs. By employing a weighted Quasi-Monte Carlo method for sampling, the proposed approach theoretically offers superior approximation efficiency. To further reduce the training computational complexity, our kernelization is based on Discrete Cosine Transform (DCT) operations. Extensive experiments demonstrate that the proposed method achieves comparable performance to the original Transformer, but with significantly reduced training costs and much faster inference speeds. Our DiJiang-7B achieves comparable performance with LLaMA2-7B on various benchmark while requires only about 1/50 training cost. Code is available at https://github.com/YuchuanTian/DiJiang.
Abstract（参考訳）: 変圧器の計算負荷を削減するため、線形注意の研究は大きな勢いを増した。しかし、注意機構の改善戦略は、多くのパラメータを持つ大規模言語モデルでは実行不可能な大規模な再訓練を必要とするのが一般的である。本稿では、事前学習したバニラトランスの線形複雑性モデルへの変換を可能にする新しい周波数領域カーネル化手法であるDiJiangを提案する。重み付けされた準モンテカルロ法をサンプリングに利用することにより、理論的には近似効率が優れている。トレーニング計算の複雑さをさらに軽減するために、我々のカーネル化は離散コサイン変換(DCT)演算に基づいている。大規模な実験により,提案手法は元のTransformerに匹敵する性能を示したが,トレーニングコストは大幅に削減され,推論速度は大幅に向上した。我々のDiJiang-7Bは、様々なベンチマークでLLaMA2-7Bと同等のパフォーマンスを達成していますが、トレーニングコストは1/50程度です。コードはhttps://github.com/YuchuanTian/DiJiang.comで入手できる。

関連論文リスト

DIVEBATCH: Accelerating Model Training Through Gradient-Diversity Aware Batch Size Adaptation [9.66951438381542]
本研究の目的は、大規模深層ニューラルネットワークモデルのトレーニングが計算コストが高くなるため、機械学習モデルのトレーニングを加速することである。本稿では,バッチサイズを動的に調整する適応型バッチサイズSGDアルゴリズムDiveBatchを提案する。 DiveBatchは標準のSGDやAdaBatch(1.06 -- 5.0x)よりもはるかに高速に収束し、性能のトレードオフもわずかである。
論文参考訳（メタデータ） (2025-09-19T17:32:19Z)
Decoupled Relative Learning Rate Schedules [4.34286535607654]
トランスフォーマーモデルにおいて、異なるコンポーネントの重みの学習率を調整することで、LLMトレーニングを最適化するための新しいアプローチを導入する。導入した相対学習率RLRSは,学習過程を最大で23%高速化する。
論文参考訳（メタデータ） (2025-07-04T12:23:45Z)
Transformers Learn to Implement Multi-step Gradient Descent with Chain of Thought [46.71030329872635]
Chain of Thought (CoT) のプロンプトにより,大規模言語モデル (LLM) の性能が大幅に向上することが示されている。線形回帰のための文脈内重み予測タスクにおいて,CoT目標に対する変圧器のトレーニングダイナミクスについて検討する。
論文参考訳（メタデータ） (2025-02-28T16:40:38Z)
Linearizing Large Language Models [26.94551511277412]
本稿では,既存の大規模事前学習型トランスフォーマーを,控えめな計算予算でリカレントニューラルネットワーク(RNN)にアップトレーニングする方法を提案する。線形化手法は標準ベンチマーク上での競合性能につながるが,最大線形モデルにおいても,永続的な文脈内学習と長期コンテキストモデリングの欠点を同定する。
論文参考訳（メタデータ） (2024-05-10T17:59:08Z)
PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。 PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文参考訳（メタデータ） (2024-03-14T09:06:49Z)
Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。 CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。 CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文参考訳（メタデータ） (2024-01-11T03:08:00Z)
RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文参考訳（メタデータ） (2023-05-22T13:57:41Z)
Towards Compute-Optimal Transfer Learning [82.88829463290041]
我々は、事前訓練されたモデルのゼロショット構造化プルーニングにより、性能を最小限に抑えて計算効率を向上させることができると主張している。その結果,事前訓練されたモデルの畳み込み畳み込みフィルタは,低計算条件下で20%以上の性能向上をもたらす可能性が示唆された。
論文参考訳（メタデータ） (2023-04-25T21:49:09Z)
ScaLA: Accelerating Adaptation of Pre-Trained Transformer-Based Language Models via Efficient Large-Batch Adversarial Noise [20.779167087445995]
事前訓練されたトランスフォーマーベースの言語モデルは、多くの自然言語理解タスクにおいて劇的に改善されている。 ScaLAは変圧器ネットワークの高速化のための,新規かつ効率的な手法である。実験の結果、ScaLAはBERTベースのRoBERTa-large上でGLLAのベースライン上で2.7-UE-9.8$times$アダプティブ・スピードアップを達成した。
論文参考訳（メタデータ） (2022-01-29T01:47:01Z)
Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。線形複雑リカレント変種は自己回帰生成に適していることが証明されている。この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文参考訳（メタデータ） (2021-03-24T10:50:43Z)
Accelerating Training of Transformer-Based Language Models with Progressive Layer Dropping [24.547833264405355]
提案手法は, サンプルあたり平均24%の時間短縮を実現し, プレトレーニングをベースラインの2.5倍の速度で行うことができる。トレーニング済みのモデルでは,より高速ながら,強力な知識伝達能力を備え,ベースラインよりも高いGLUEスコアを達成できる。
論文参考訳（メタデータ） (2020-10-26T06:50:07Z)
Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文参考訳（メタデータ） (2020-02-26T21:17:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。