論文の概要: Efficient Inference For Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2010.02416v2
- Date: Wed, 7 Oct 2020 13:48:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 05:18:04.307532
- Title: Efficient Inference For Neural Machine Translation
- Title(参考訳): ニューラルマシン翻訳の効率的な推論
- Authors: Yi-Te Hsu, Sarthak Garg, Yi-Hsiu Liao, Ilya Chatsviorkin
- Abstract要約: 大規模トランスフォーマーモデルは、ニューラルマシン翻訳の最先端の結果を得た。
翻訳品質を犠牲にすることなく、推論速度を最適化する既知の手法の最適組み合わせを探索する。
- 参考スコア(独自算出の注目度): 3.0338337603465013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Transformer models have achieved state-of-the-art results in neural
machine translation and have become standard in the field. In this work, we
look for the optimal combination of known techniques to optimize inference
speed without sacrificing translation quality. We conduct an empirical study
that stacks various approaches and demonstrates that combination of replacing
decoder self-attention with simplified recurrent units, adopting a deep encoder
and a shallow decoder architecture and multi-head attention pruning can achieve
up to 109% and 84% speedup on CPU and GPU respectively and reduce the number of
parameters by 25% while maintaining the same translation quality in terms of
BLEU.
- Abstract(参考訳): 大規模トランスフォーマーモデルはニューラルマシン翻訳の最先端の結果を達成し、この分野では標準となっている。
本研究では,翻訳品質を犠牲にすることなく,推論速度を最適化する手法の最適組み合わせを提案する。
我々は,デコーダの自己アテンションを単純化された再帰ユニットに置き換えること,ディープエンコーダと浅層デコーダアーキテクチャとマルチヘッドアテンションプルーニングを併用することにより,CPUとGPUで最大109%,84%の高速化を実現し,BLEUで同じ翻訳品質を維持しつつパラメータ数を25%削減できることを実証する実証的研究を行った。
関連論文リスト
- Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。
また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。
我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文 参考訳(メタデータ) (2024-11-05T12:26:25Z) - Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - Extreme Encoder Output Frame Rate Reduction: Improving Computational
Latencies of Large End-to-End Models [59.57732929473519]
エンコーダに複数のフレーム削減層を適用し,少数の出力フレームにエンコーダ出力を圧縮する。
入力音声の2.56秒毎に1つのエンコーダ出力フレームを生成できることを示す。
論文 参考訳(メタデータ) (2024-02-27T03:40:44Z) - Heterogeneous Encoders Scaling In The Transformer For Neural Machine
Translation [47.82947878753809]
ヘテロジニアス手法の統合の有効性について検討する。
単純な組み合わせ戦略と性能駆動型シナジー基準に基づいて,マルチエンコーダ変換器を設計した。
その結果,提案手法は,さまざまな言語やデータセットサイズにまたがる翻訳の質を向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-12-26T03:39:08Z) - ConvNeXt-ChARM: ConvNeXt-based Transform for Efficient Neural Image
Compression [18.05997169440533]
ConvNeXt-ChARMは,効率的なConvNeXtベースのトランスフォーメーションコーディングフレームワークである。
ConvNeXt-ChARMは、VVC参照エンコーダ(VTM-18.0)と最先端の学習画像圧縮手法であるSwinT-ChARMに対して、平均5.24%と1.22%と、一貫したBDレート(PSNR)の低下をもたらすことを示した。
論文 参考訳(メタデータ) (2023-07-12T11:45:54Z) - Joint Hierarchical Priors and Adaptive Spatial Resolution for Efficient
Neural Image Compression [11.25130799452367]
ニューラル画像圧縮(NIC)のための絶対画像圧縮変換器(ICT)を提案する。
ICTは、潜在表現からグローバルコンテキストとローカルコンテキストの両方をキャプチャし、量子化された潜在表現の分布をパラメータ化する。
我々のフレームワークは、多目的ビデオ符号化(VVC)参照符号化(VTM-18.0)とニューラルスウィンT-ChARMに対する符号化効率とデコーダ複雑性のトレードオフを大幅に改善する。
論文 参考訳(メタデータ) (2023-07-05T13:17:14Z) - Multilingual Neural Machine Translation with Deep Encoder and Multiple
Shallow Decoders [77.2101943305862]
本稿では,複数の浅層デコーダ(DEMSD)を持つディープエンコーダを提案する。
2層デコーダを用いたDEMDモデルは、翻訳品質の低下のない標準トランスモデルと比較して平均1.8倍の高速化が得られる。
論文 参考訳(メタデータ) (2022-06-05T01:15:04Z) - Multiscale Collaborative Deep Models for Neural Machine Translation [40.52423993051359]
従来よりもはるかに深いNMTモデルのトレーニングを容易にするために,MultiScale Collaborative (MSC) フレームワークを提案する。
我々は,深部NMTモデルにブロックスケール協調機構を導入することにより,下位レベルから下位レベルへの勾配バックプロパゲーションを明示的に向上する。
我々のディープMSCは、WMT14におけるBLEUスコアが30.56で、最先端のディープNTTモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2020-04-29T08:36:08Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。