論文の概要: Less is More! A slim architecture for optimal language translation
- arxiv url: http://arxiv.org/abs/2305.10991v1
- Date: Thu, 18 May 2023 14:09:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 14:59:11.545308
- Title: Less is More! A slim architecture for optimal language translation
- Title(参考訳): より少ない!
最適言語翻訳のためのスリムアーキテクチャ
- Authors: Luca Herranz-Celotti, Ermal Rrapaj
- Abstract要約: ソフトマックスアテンションメカニズムは、人工知能研究の分野で注目に値する発展を遂げている。
アーキテクチャサイズを増大させることなく性能を向上させるシグモノイドゲーティング機構であるKgVを提案する。
提案手法により,性能が大幅に向上し,メモリコストも大幅に低減した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The softmax attention mechanism has emerged as a noteworthy development in
the field of Artificial Intelligence research, building on the successes of
Transformer-based architectures. However, their ever increasing sizes
necessitate ever increasing computational memory, that limits their usage. We
propose KgV, a sigmoid gating mechanism that, in conjunction with softmax
attention, significantly boosts performance without increasing architecture
size. To amend the size requirements, we leverage Tensor Chains to identify and
prune the excess parameters. We find that such excess resides primarily within
the embedding layer, and not in the output linear layer. To further improve
embedding and significantly reduce parameters, we introduce H-SoftPOS, a
hierarchical embedding layer which simultaneously enhances performance.
Remarkably, on the WMT14 English-German validation set, our approach yields a
threefold reduction in perplexity, surpassing the current state-of-the-art,
while reducing parameter counts also by a factor of 3. When we further reduce
the number of parameters up to sevenfold, we can still achieve a 21\% decrease
in perplexity with respect to the baseline Transformer. To understand
generalization capabilities, we conduct experiments on the 7 language pairs of
the WMT17 dataset. Our method outperforms existing techniques in terms of test
loss while simultaneously halving the number of parameters. Moreover, we
observe a 70 times reduction in variance with respect to the prior
state-of-the-art. In conclusion, our proposed method yields significant
improvements in performance and much lower memory cost. We call the resulting
architecture Anthe.
- Abstract(参考訳): ソフトマックスアテンションメカニズムは、トランスフォーマーベースのアーキテクチャの成功に基づいて、人工知能研究の分野で注目に値する発展として登場した。
しかし、そのサイズが大きくなると計算メモリが増大し、使用が制限される。
ソフトマックスアテンションと合わせて,アーキテクチャサイズを増大させることなく性能を大幅に向上させるシグモノイドゲーティング機構であるKgVを提案する。
サイズ要件の修正には、Tensor Chainsを使用して過剰なパラメータを識別およびプーンします。
このような余剰は、主に埋め込み層に存在し、出力線形層には存在しないことが分かる。
組込みをさらに改善し,パラメータを大幅に削減するために,階層型組込み層であるh-softposを導入する。
注目すべきは、WMT14の英語-ドイツ語の検証セットにおいて、我々の手法はパープレキシティを3倍に減らし、現在の最先端を越え、パラメータ数を3倍に削減する。
さらに7倍までのパラメータ数を減少させると、ベースライン変換器に関して21倍のパープレキシティの低下が達成できる。
一般化機能を理解するため,WMT17データセットの7つの言語対の実験を行った。
提案手法は,パラメータ数を半減しながら,既存手法よりもテスト損失の点で優れている。
さらに,従来の最先端技術に対する分散の70倍の減少を観測した。
その結果,提案手法は性能が大幅に向上し,メモリコストが大幅に低減した。
アーキテクチャの結果をAntheと呼びます。
関連論文リスト
- EfficientMorph: Parameter-Efficient Transformer-Based Architecture for 3D Image Registration [1.741980945827445]
教師なし3次元画像登録のためのトランスフォーマーベースアーキテクチャであるEfficientMorphを提案する。
航空機をベースとしたアテンション機構を通じて、地域と世界的なアテンションのバランスを最適化する。
カスケードされたグループアテンションによって計算の冗長性を低減し、計算効率を損なうことなく細部をキャプチャする。
論文 参考訳(メタデータ) (2024-03-16T22:01:55Z) - Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - MGAS: Multi-Granularity Architecture Search for Trade-Off Between Model
Effectiveness and Efficiency [10.641875933652647]
我々は,多粒度アーキテクチャサーチ(MGAS)を導入し,効率的かつ効率的なニューラルネットワークを探索する。
各粒度レベル固有の離散化関数を学習し、進化したアーキテクチャに従って単位残率を適応的に決定する。
CIFAR-10、CIFAR-100、ImageNetの大規模な実験により、MGASはモデル性能とモデルサイズとのトレードオフを改善するために、他の最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-23T16:32:18Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [63.99489591661645]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Multi-Grid Tensorized Fourier Neural Operator for High-Resolution PDEs [93.82811501035569]
本稿では,メモリ要求を低減し,より一般化したデータ効率・並列化可能な演算子学習手法を提案する。
MG-TFNOは、実世界の実世界の現象の局所的構造と大域的構造を活用することで、大規模な分解能にスケールする。
乱流ナビエ・ストークス方程式において150倍以上の圧縮で誤差の半分以下を達成できる優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-29T20:18:52Z) - Dynamic Context Pruning for Efficient and Interpretable Autoregressive
Transformers [18.963110713461045]
本稿では,モデル表現性を保ちながら文脈情報を動的に生成する手法を提案する。
本手法では,文脈からどの非形式的トークンをドロップできるかを学習可能なメカニズムを用いて決定する。
我々の参照実装は、推論スループットの増大とメモリの節約を最大2ドルまで達成します。
論文 参考訳(メタデータ) (2023-05-25T07:39:41Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z) - Efficient Neural Net Approaches in Metal Casting Defect Detection [0.0]
本研究は,精度と推定時間の観点から効率の良い軽量アーキテクチャを提案する。
以上の結果から,深度的に分離可能な畳み込みを持つ590Kパラメータのカスタムモデルが事前学習アーキテクチャよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-08-08T13:54:36Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - Sparse Systolic Tensor Array for Efficient CNN Hardware Acceleration [14.958793135751149]
モバイルデバイス上の畳み込みニューラルネットワーク(CNN)推論は、低精度(INT8)汎用行列乗算(GEMM)の効率的なハードウェアアクセラレーションを必要とする
CNN推論のGEMMをさらに加速する一般的な手法であり、特に、構造的スパーシリティは予測可能な負荷分散と非常に低いインデックスオーバーヘッドの利点がある。
ハードウェアの高利用を保ちながら、さまざまな分散レベルのサポートを提供する方法について、構造的疎結合で重要なアーキテクチャ上の課題に対処する。
論文 参考訳(メタデータ) (2020-09-04T20:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。