Fugu-MT 論文翻訳(概要): Improving Autoregressive NLP Tasks via Modular Linearized Attention

論文の概要: Improving Autoregressive NLP Tasks via Modular Linearized Attention

arxiv url: http://arxiv.org/abs/2304.08453v2
Date: Mon, 24 Apr 2023 18:51:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-26 23:33:29.190082
Title: Improving Autoregressive NLP Tasks via Modular Linearized Attention
Title（参考訳）: モジュラリニアライズメントによる自己回帰的nlpタスクの改善
Authors: Victor Agostinelli, Lizhong Chen
Abstract要約: 本稿では,推定品質を最大化しつつ,顕著な高速化を実現するために,モジュラリニアライナライズドアテンション(MLA)を提案する。本稿では、音声からテキストへのニューラルマシン翻訳(S2T NMT)、音声からテキストへの同時翻訳(SimulST)、自動回帰テキスト・トゥ・スペクトログラムなど、いくつかの自己回帰NLPタスクに対して、このアプローチを検証する。
参考スコア（独自算出の注目度）: 0.20305676256390928
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Various natural language processing (NLP) tasks necessitate models that are efficient and small based on their ultimate application at the edge or in other resource-constrained environments. While prior research has reduced the size of these models, increasing computational efficiency without considerable performance impacts remains difficult, especially for autoregressive tasks. This paper proposes {modular linearized attention (MLA), which combines multiple efficient attention mechanisms, including cosFormer, to maximize inference quality while achieving notable speedups. We validate this approach on several autoregressive NLP tasks, including speech-to-text neural machine translation (S2T NMT), speech-to-text simultaneous translation (SimulST), and autoregressive text-to-spectrogram, noting efficiency gains on TTS and competitive performance for NMT and SimulST during training and inference.
Abstract（参考訳）: 様々な自然言語処理(NLP)タスクは、エッジや他のリソース制約のある環境における究極の応用に基づいて、効率的で小さなモデルを必要とする。先行研究はこれらのモデルのサイズを縮小したが、特に自己回帰的なタスクでは、かなりのパフォーマンスへの影響を伴わない計算効率の向上は困難である。本稿では,cosFormerを含む複数の効率的な注意機構を組み合わせることで,予測品質を最大化するとともに,顕著な高速化を実現した。本手法は,音声からテキストへのニューラルマシン翻訳(S2T NMT),音声からテキストへの同時翻訳(SimulST),自動回帰テキスト・トゥ・スペクトログラムなどの自己回帰NLPタスクにおいて,TTSの効率向上と,トレーニングおよび推論中のNMTとSimulSTの競合性能を示す。

関連論文リスト

Generalizing Large Language Model Usability Across Resource-Constrained [0.43512163406552007]
論文は、現実世界の制約下での大規模言語モデルを一般化するための体系的な研究である。まず、LLMが多様なモダリティをシームレスに統合することを可能にする、堅牢なテキスト中心アライメントフレームワークを導入する。マルチモーダル設定以外にも、この論文はLLMの推論時間最適化戦略を研究している。
論文参考訳（メタデータ） (2025-05-13T01:00:12Z)
Low-Rank and Sparse Model Merging for Multi-Lingual Speech Recognition and Translation [7.437128866333448]
異なる言語やタスクでトレーニングされたモデルを効率的に統合する新しいテクニックであるLoRS-Mergingを紹介する。 LoRS-Mergingは低ランクとスパースプルーニングを組み合わせることで、冗長なパラメータを排除しながら本質的な構造を維持する。 10言語にわたる実験の結果、LoRS-Mergingは多言語マルチタスクトレーニングよりも大幅に優れていた。
論文参考訳（メタデータ） (2025-02-24T18:06:57Z)
A Thorough Investigation into the Application of Deep CNN for Enhancing Natural Language Processing Capabilities [0.0]
本稿では,Deep Convolutional Neural Networks(DCNN)を自然言語処理に導入する。 DCNN、機械学習アルゴリズム、GAN(Generative Adversarial Network)を統合することで、言語理解を改善し、あいまいさを低減し、タスクパフォーマンスを向上させる。高性能NLPモデルでは,セグメント化精度が10%向上し,リコール率も従来のモデルに比べて4%向上した。
論文参考訳（メタデータ） (2024-12-20T13:53:41Z)
USEFUSE: Utile Stride for Enhanced Performance in Fused Layer Architecture of Deep Neural Networks [0.6435156676256051]
本研究では,低レイテンシ左から右へのビットシリアル演算を用いた畳み込みのためのSum-of-Products (SOP)ユニットを提案する。有効メカニズムは、ReLU層の後、非効率な畳み込みを検出し、スキップし、消費電力を最小化する。ひとつはミッションクリティカルなアプリケーションの応答時間を最小限にすること、もうひとつはリソースに制約のあるデバイスに同じレイテンシでフォーカスすることである。
論文参考訳（メタデータ） (2024-12-18T11:04:58Z)
FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。 FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-08-15T16:45:16Z)
Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文参考訳（メタデータ） (2024-06-24T15:55:59Z)
Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization [0.6445087473595953]
大規模言語モデル(LLM)は、機械学習における様々なタスクにおいて優れたパフォーマンスを示す。 LLM推論のデプロイは、高い計算とメモリ要求のために問題となる。我々は,低精度でLLM推論を効率的に展開できるアルゴリズム-ハードウェア共設計ソリューションであるテンダーを提案する。
論文参考訳（メタデータ） (2024-06-16T09:51:55Z)
Lossless Acceleration of Large Language Model via Adaptive N-gram Parallel Decoding [2.642212767247493]
適応的なN-gram並列デコーディング(ANPD)を導入し,複数のトークンを同時に生成することで推論を高速化する。 ANPDは、処理速度を向上しながら、元の出力の完全性を維持する。実験では、LLaMAのようなモデルとその微調整されたモデルが3.67倍の速度向上を示した。
論文参考訳（メタデータ） (2024-04-10T16:11:09Z)
Integrating Pre-trained Language Model into Neural Machine Translation [0.0]
高品質なバイリンガル言語ペアデータの欠如は、NMTの性能向上に大きな課題をもたらす。近年,この問題を解決するために,事前学習言語モデル(PLM)の文脈情報の利用が検討されている。本研究では PLM 統合 NMT モデルを提案する。
論文参考訳（メタデータ） (2023-10-30T16:00:13Z)
Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。 MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文参考訳（メタデータ） (2023-09-13T04:06:47Z)
A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。 MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文参考訳（メタデータ） (2023-09-02T11:01:16Z)
FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文参考訳（メタデータ） (2023-08-16T23:57:41Z)
Exploring Dimensionality Reduction Techniques in Multilingual Transformers [64.78260098263489]
本稿では,多言語シームス変圧器の性能に及ぼす次元還元法の影響を包括的に考察する。これは、それぞれ91.58% pm 2.59%$と54.65% pm 32.20%$の次元を平均で減少させることが可能であることを示している。
論文参考訳（メタデータ） (2022-04-18T17:20:55Z)
Learning to Multi-Task Learn for Better Neural Machine Translation [53.06405021125476]
マルチタスク学習は、言語関連バイアスをニューラルネットワーク翻訳モデルに注入するエレガントなアプローチである。本稿では,学習スケジュールの学習,マルチタスク学習のための新しいフレームワークを提案する。実験の結果、自動学習したトレーニングスケジューラがベストと競い合っており、最大1.1BLEUスコアが向上している。
論文参考訳（メタデータ） (2020-01-10T03:12:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。