論文の概要: Less is More! A slim architecture for optimal language translation
- arxiv url: http://arxiv.org/abs/2305.10991v1
- Date: Thu, 18 May 2023 14:09:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 14:59:11.545308
- Title: Less is More! A slim architecture for optimal language translation
- Title(参考訳): より少ない!
最適言語翻訳のためのスリムアーキテクチャ
- Authors: Luca Herranz-Celotti, Ermal Rrapaj
- Abstract要約: ソフトマックスアテンションメカニズムは、人工知能研究の分野で注目に値する発展を遂げている。
アーキテクチャサイズを増大させることなく性能を向上させるシグモノイドゲーティング機構であるKgVを提案する。
提案手法により,性能が大幅に向上し,メモリコストも大幅に低減した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The softmax attention mechanism has emerged as a noteworthy development in
the field of Artificial Intelligence research, building on the successes of
Transformer-based architectures. However, their ever increasing sizes
necessitate ever increasing computational memory, that limits their usage. We
propose KgV, a sigmoid gating mechanism that, in conjunction with softmax
attention, significantly boosts performance without increasing architecture
size. To amend the size requirements, we leverage Tensor Chains to identify and
prune the excess parameters. We find that such excess resides primarily within
the embedding layer, and not in the output linear layer. To further improve
embedding and significantly reduce parameters, we introduce H-SoftPOS, a
hierarchical embedding layer which simultaneously enhances performance.
Remarkably, on the WMT14 English-German validation set, our approach yields a
threefold reduction in perplexity, surpassing the current state-of-the-art,
while reducing parameter counts also by a factor of 3. When we further reduce
the number of parameters up to sevenfold, we can still achieve a 21\% decrease
in perplexity with respect to the baseline Transformer. To understand
generalization capabilities, we conduct experiments on the 7 language pairs of
the WMT17 dataset. Our method outperforms existing techniques in terms of test
loss while simultaneously halving the number of parameters. Moreover, we
observe a 70 times reduction in variance with respect to the prior
state-of-the-art. In conclusion, our proposed method yields significant
improvements in performance and much lower memory cost. We call the resulting
architecture Anthe.
- Abstract(参考訳): ソフトマックスアテンションメカニズムは、トランスフォーマーベースのアーキテクチャの成功に基づいて、人工知能研究の分野で注目に値する発展として登場した。
しかし、そのサイズが大きくなると計算メモリが増大し、使用が制限される。
ソフトマックスアテンションと合わせて,アーキテクチャサイズを増大させることなく性能を大幅に向上させるシグモノイドゲーティング機構であるKgVを提案する。
サイズ要件の修正には、Tensor Chainsを使用して過剰なパラメータを識別およびプーンします。
このような余剰は、主に埋め込み層に存在し、出力線形層には存在しないことが分かる。
組込みをさらに改善し,パラメータを大幅に削減するために,階層型組込み層であるh-softposを導入する。
注目すべきは、WMT14の英語-ドイツ語の検証セットにおいて、我々の手法はパープレキシティを3倍に減らし、現在の最先端を越え、パラメータ数を3倍に削減する。
さらに7倍までのパラメータ数を減少させると、ベースライン変換器に関して21倍のパープレキシティの低下が達成できる。
一般化機能を理解するため,WMT17データセットの7つの言語対の実験を行った。
提案手法は,パラメータ数を半減しながら,既存手法よりもテスト損失の点で優れている。
さらに,従来の最先端技術に対する分散の70倍の減少を観測した。
その結果,提案手法は性能が大幅に向上し,メモリコストが大幅に低減した。
アーキテクチャの結果をAntheと呼びます。
関連論文リスト
- Sparse Gradient Compression for Fine-Tuning Large Language Models [58.44973963468691]
ダウンストリームタスクのための微調整された大型言語モデル(LLM)は、広く利用されていることと、オープンソースモデルの利用が増加しているために、ますます重要になっている。
微調整に伴う高メモリコストは、特にモデルのサイズが大きくなるにつれて大きな課題である。
これらの制約に対処するためにスパース圧縮勾配(SGC)を提案する。
論文 参考訳(メタデータ) (2025-02-01T04:18:28Z) - TeZO: Empowering the Low-Rankness on the Temporal Dimension in the Zeroth-Order Optimization for Fine-tuning LLMs [58.19080159470868]
モデルと時間次元の両方にわたって低ランク度をキャプチャする新しい低ランクZO推定器TeZOを提案する。
具体的には、時間次元に沿ったZO摂動を3次元テンソルとして表現し、Canonical Polyadic Decomposition (CPD)を用いて各低ランク2次元行列を抽出する。
論文 参考訳(メタデータ) (2025-01-31T11:34:03Z) - OP-LoRA: The Blessing of Dimensionality [93.08208871549557]
低ランクアダプタは、少数のパラメータしか持たない大型モデルの微調整を可能にする。
しばしば最適化の課題を提起するが、収束性は低い。
推論コストを増大させることなく、トレーニングを加速する過剰パラメータ化アプローチを導入する。
視覚言語タスクの改善、特に画像生成の顕著な向上を実現している。
論文 参考訳(メタデータ) (2024-12-13T18:55:19Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - MOFHEI: Model Optimizing Framework for Fast and Efficient Homomorphically Encrypted Neural Network Inference [0.8388591755871735]
ホモモルフィック暗号化(HE)により、暗号化データ上で機械学習タスクを実行できる。
HEに基づくニューラルネットワーク推論を高速かつ効率的にするためのモデルを最適化するフレームワークであるMOFHEIを提案する。
このフレームワークはLeNet上で最大98%のプルーニング比を実現し,PI実行に必要なHE操作の最大93%を排除した。
論文 参考訳(メタデータ) (2024-12-10T22:44:54Z) - Compressing Large Language Models with Automated Sub-Network Search [41.452512557226335]
我々は、下流タスク性能を改善しつつ、モデルサイズの削減を図るため、大規模言語モデルに対するモデル圧縮を検討する。
我々はこれを、構造的コンポーネントを自動生成するニューラルネットワーク探索問題と表現する。
本手法は,11種類のダウンストリームタスクに対して平均9.85%の改善を実現し,デバイス上でのレイテンシを最大22%改善する。
論文 参考訳(メタデータ) (2024-10-09T02:14:39Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - ALPS: Improved Optimization for Highly Sparse One-Shot Pruning for Large Language Models [14.310720048047136]
ALPSは,演算子分割法と事前条件付き勾配共役型後処理法を用いて,プルーニング問題に対処する最適化ベースのフレームワークである。
提案手法はベクトル化とGPU並列性を有効利用しながら収束を加速し理論的に保証する新しい手法を取り入れている。
OPT-30Bモデルでは70%の間隔で、ALPSはWikiTextデータセットにおけるテストの難易度を13%削減し、既存の手法と比較してゼロショットベンチマークのパフォーマンスを19%改善した。
論文 参考訳(メタデータ) (2024-06-12T02:57:41Z) - Compressible Dynamics in Deep Overparameterized Low-Rank Learning & Adaptation [12.07880147193174]
モデルパラメータ内のデータと圧縮可能な力学の固有な低次元構造を利用することで、計算負担を伴わずにパラメータ化の利点を享受できることが示される。
提案手法は,低ランク行列と微調整言語モデルに対して有効であることを示す。
論文 参考訳(メタデータ) (2024-06-06T14:29:49Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。