論文の概要: Less is More! A slim architecture for optimal language translation
- arxiv url: http://arxiv.org/abs/2305.10991v1
- Date: Thu, 18 May 2023 14:09:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 14:59:11.545308
- Title: Less is More! A slim architecture for optimal language translation
- Title(参考訳): より少ない!
最適言語翻訳のためのスリムアーキテクチャ
- Authors: Luca Herranz-Celotti, Ermal Rrapaj
- Abstract要約: ソフトマックスアテンションメカニズムは、人工知能研究の分野で注目に値する発展を遂げている。
アーキテクチャサイズを増大させることなく性能を向上させるシグモノイドゲーティング機構であるKgVを提案する。
提案手法により,性能が大幅に向上し,メモリコストも大幅に低減した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The softmax attention mechanism has emerged as a noteworthy development in
the field of Artificial Intelligence research, building on the successes of
Transformer-based architectures. However, their ever increasing sizes
necessitate ever increasing computational memory, that limits their usage. We
propose KgV, a sigmoid gating mechanism that, in conjunction with softmax
attention, significantly boosts performance without increasing architecture
size. To amend the size requirements, we leverage Tensor Chains to identify and
prune the excess parameters. We find that such excess resides primarily within
the embedding layer, and not in the output linear layer. To further improve
embedding and significantly reduce parameters, we introduce H-SoftPOS, a
hierarchical embedding layer which simultaneously enhances performance.
Remarkably, on the WMT14 English-German validation set, our approach yields a
threefold reduction in perplexity, surpassing the current state-of-the-art,
while reducing parameter counts also by a factor of 3. When we further reduce
the number of parameters up to sevenfold, we can still achieve a 21\% decrease
in perplexity with respect to the baseline Transformer. To understand
generalization capabilities, we conduct experiments on the 7 language pairs of
the WMT17 dataset. Our method outperforms existing techniques in terms of test
loss while simultaneously halving the number of parameters. Moreover, we
observe a 70 times reduction in variance with respect to the prior
state-of-the-art. In conclusion, our proposed method yields significant
improvements in performance and much lower memory cost. We call the resulting
architecture Anthe.
- Abstract(参考訳): ソフトマックスアテンションメカニズムは、トランスフォーマーベースのアーキテクチャの成功に基づいて、人工知能研究の分野で注目に値する発展として登場した。
しかし、そのサイズが大きくなると計算メモリが増大し、使用が制限される。
ソフトマックスアテンションと合わせて,アーキテクチャサイズを増大させることなく性能を大幅に向上させるシグモノイドゲーティング機構であるKgVを提案する。
サイズ要件の修正には、Tensor Chainsを使用して過剰なパラメータを識別およびプーンします。
このような余剰は、主に埋め込み層に存在し、出力線形層には存在しないことが分かる。
組込みをさらに改善し,パラメータを大幅に削減するために,階層型組込み層であるh-softposを導入する。
注目すべきは、WMT14の英語-ドイツ語の検証セットにおいて、我々の手法はパープレキシティを3倍に減らし、現在の最先端を越え、パラメータ数を3倍に削減する。
さらに7倍までのパラメータ数を減少させると、ベースライン変換器に関して21倍のパープレキシティの低下が達成できる。
一般化機能を理解するため,WMT17データセットの7つの言語対の実験を行った。
提案手法は,パラメータ数を半減しながら,既存手法よりもテスト損失の点で優れている。
さらに,従来の最先端技術に対する分散の70倍の減少を観測した。
その結果,提案手法は性能が大幅に向上し,メモリコストが大幅に低減した。
アーキテクチャの結果をAntheと呼びます。
関連論文リスト
- HELENE: Hessian Layer-wise Clipping and Gradient Annealing for Accelerating Fine-tuning LLM with Zeroth-order Optimization [18.00873866263434]
微調整された大きな言語モデル(LLM)は、大きなメモリ問題を引き起こす。
最近の研究であるMeZOは、ゼロ階最適化法(ZO)を用いてこの問題に対処している。
HELENEは、スケーラブルでメモリ効率の良い新しいプレコンディショナーである。
論文 参考訳(メタデータ) (2024-11-16T04:27:22Z) - SoftLMs: Efficient Adaptive Low-Rank Approximation of Language Models using Soft-Thresholding Mechanism [1.7170348600689374]
本稿では,ソフトしきい値設定機構を用いて各層のランクを動的に決定する新しい圧縮手法を提案する。
本手法は,識別タスクのBERTや生成タスクのGPT2,TinyLlamaなど,注目に基づくアーキテクチャに適用可能である。
実験により,提案手法はエンコーダ/デコーダにおける1.33Xから1.72Xの高速化を実現し,全パラメータの50%削減を実現した。
論文 参考訳(メタデータ) (2024-11-15T19:29:51Z) - Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。
また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。
我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文 参考訳(メタデータ) (2024-11-05T12:26:25Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - ALPS: Improved Optimization for Highly Sparse One-Shot Pruning for Large Language Models [14.310720048047136]
ALPSは,演算子分割法と事前条件付き勾配共役型後処理法を用いて,プルーニング問題に対処する最適化ベースのフレームワークである。
提案手法はベクトル化とGPU並列性を有効利用しながら収束を加速し理論的に保証する新しい手法を取り入れている。
OPT-30Bモデルでは70%の間隔で、ALPSはWikiTextデータセットにおけるテストの難易度を13%削減し、既存の手法と比較してゼロショットベンチマークのパフォーマンスを19%改善した。
論文 参考訳(メタデータ) (2024-06-12T02:57:41Z) - ReduceFormer: Attention with Tensor Reduction by Summation [4.985969607297595]
注意を払って効率よく最適化されたモデルのファミリーであるReduceeFormerを紹介します。
ReduceFormerは、reduceやement-wise multiplicationといった単純な操作のみを活用するため、アーキテクチャが大幅に単純化され、推論性能が向上した。
提案するモデルファミリは,計算資源とメモリ帯域幅が限られているエッジデバイスや,高いスループットを求めるクラウドコンピューティングに適している。
論文 参考訳(メタデータ) (2024-06-11T17:28:09Z) - Compressible Dynamics in Deep Overparameterized Low-Rank Learning & Adaptation [12.07880147193174]
モデルパラメータ内のデータと圧縮可能な力学の固有な低次元構造を利用することで、計算負担を伴わずにパラメータ化の利点を享受できることが示される。
提案手法は,低ランク行列と微調整言語モデルに対して有効であることを示す。
論文 参考訳(メタデータ) (2024-06-06T14:29:49Z) - Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。