論文の概要: Improving Autoregressive NLP Tasks via Modular Linearized Attention
- arxiv url: http://arxiv.org/abs/2304.08453v2
- Date: Mon, 24 Apr 2023 18:51:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 23:33:29.190082
- Title: Improving Autoregressive NLP Tasks via Modular Linearized Attention
- Title(参考訳): モジュラリニアライズメントによる自己回帰的nlpタスクの改善
- Authors: Victor Agostinelli, Lizhong Chen
- Abstract要約: 本稿では,推定品質を最大化しつつ,顕著な高速化を実現するために,モジュラリニアライナライズドアテンション(MLA)を提案する。
本稿では、音声からテキストへのニューラルマシン翻訳(S2T NMT)、音声からテキストへの同時翻訳(SimulST)、自動回帰テキスト・トゥ・スペクトログラムなど、いくつかの自己回帰NLPタスクに対して、このアプローチを検証する。
- 参考スコア(独自算出の注目度): 0.20305676256390928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Various natural language processing (NLP) tasks necessitate models that are
efficient and small based on their ultimate application at the edge or in other
resource-constrained environments. While prior research has reduced the size of
these models, increasing computational efficiency without considerable
performance impacts remains difficult, especially for autoregressive tasks.
This paper proposes {modular linearized attention (MLA), which combines
multiple efficient attention mechanisms, including cosFormer, to maximize
inference quality while achieving notable speedups. We validate this approach
on several autoregressive NLP tasks, including speech-to-text neural machine
translation (S2T NMT), speech-to-text simultaneous translation (SimulST), and
autoregressive text-to-spectrogram, noting efficiency gains on TTS and
competitive performance for NMT and SimulST during training and inference.
- Abstract(参考訳): 様々な自然言語処理(NLP)タスクは、エッジや他のリソース制約のある環境における究極の応用に基づいて、効率的で小さなモデルを必要とする。
先行研究はこれらのモデルのサイズを縮小したが、特に自己回帰的なタスクでは、かなりのパフォーマンスへの影響を伴わない計算効率の向上は困難である。
本稿では,cosFormerを含む複数の効率的な注意機構を組み合わせることで,予測品質を最大化するとともに,顕著な高速化を実現した。
本手法は,音声からテキストへのニューラルマシン翻訳(S2T NMT),音声からテキストへの同時翻訳(SimulST),自動回帰テキスト・トゥ・スペクトログラムなどの自己回帰NLPタスクにおいて,TTSの効率向上と,トレーニングおよび推論中のNMTとSimulSTの競合性能を示す。
関連論文リスト
- FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization [0.6445087473595953]
大規模言語モデル(LLM)は、機械学習における様々なタスクにおいて優れたパフォーマンスを示す。
LLM推論のデプロイは、高い計算とメモリ要求のために問題となる。
我々は,低精度でLLM推論を効率的に展開できるアルゴリズム-ハードウェア共設計ソリューションであるテンダーを提案する。
論文 参考訳(メタデータ) (2024-06-16T09:51:55Z) - Lossless Acceleration of Large Language Model via Adaptive N-gram Parallel Decoding [2.642212767247493]
適応的なN-gram並列デコーディング(ANPD)を導入し,複数のトークンを同時に生成することで推論を高速化する。
ANPDは、処理速度を向上しながら、元の出力の完全性を維持する。
実験では、LLaMAのようなモデルとその微調整されたモデルが3.67倍の速度向上を示した。
論文 参考訳(メタデータ) (2024-04-10T16:11:09Z) - Integrating Pre-trained Language Model into Neural Machine Translation [0.0]
高品質なバイリンガル言語ペアデータの欠如は、NMTの性能向上に大きな課題をもたらす。
近年,この問題を解決するために,事前学習言語モデル(PLM)の文脈情報の利用が検討されている。
本研究では PLM 統合 NMT モデルを提案する。
論文 参考訳(メタデータ) (2023-10-30T16:00:13Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z) - Exploring Dimensionality Reduction Techniques in Multilingual
Transformers [64.78260098263489]
本稿では,多言語シームス変圧器の性能に及ぼす次元還元法の影響を包括的に考察する。
これは、それぞれ91.58% pm 2.59%$と54.65% pm 32.20%$の次元を平均で減少させることが可能であることを示している。
論文 参考訳(メタデータ) (2022-04-18T17:20:55Z) - Learning to Multi-Task Learn for Better Neural Machine Translation [53.06405021125476]
マルチタスク学習は、言語関連バイアスをニューラルネットワーク翻訳モデルに注入するエレガントなアプローチである。
本稿では,学習スケジュールの学習,マルチタスク学習のための新しいフレームワークを提案する。
実験の結果、自動学習したトレーニングスケジューラがベストと競い合っており、最大1.1BLEUスコアが向上している。
論文 参考訳(メタデータ) (2020-01-10T03:12:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。