論文の概要: Only 5\% Attention Is All You Need: Efficient Long-range Document-level
Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2309.14174v1
- Date: Mon, 25 Sep 2023 14:33:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 15:08:42.181864
- Title: Only 5\% Attention Is All You Need: Efficient Long-range Document-level
Neural Machine Translation
- Title(参考訳): 5\%の注意しか必要としない:効率的な長距離文書レベルのニューラルマシン翻訳
- Authors: Zihan Liu, Zewei Sun, Shanbo Cheng, Shujian Huang, Mingxuan Wang
- Abstract要約: 文書レベルの文脈情報を導入することにより,談話現象を扱う上で,文書レベルのニューラルネットワーク翻訳(DocNMT)が重要であることが証明されている。
最も重要な方向の1つは、ドキュメント全体を標準のTransformerモデルに直接入力することである。
本研究は,少量のトークンを選択する軽量注意に基づく追加の選択層を導入することにより,翻訳性能を20%向上させながら維持する。
- 参考スコア(独自算出の注目度): 70.87670058323239
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document-level Neural Machine Translation (DocNMT) has been proven crucial
for handling discourse phenomena by introducing document-level context
information. One of the most important directions is to input the whole
document directly to the standard Transformer model. In this case, efficiency
becomes a critical concern due to the quadratic complexity of the attention
module. Existing studies either focus on the encoder part, which cannot be
deployed on sequence-to-sequence generation tasks, e.g., Machine Translation
(MT), or suffer from a significant performance drop. In this work, we keep the
translation performance while gaining 20\% speed up by introducing extra
selection layer based on lightweight attention that selects a small portion of
tokens to be attended. It takes advantage of the original attention to ensure
performance and dimension reduction to accelerate inference. Experimental
results show that our method could achieve up to 95\% sparsity (only 5\% tokens
attended) approximately, and save 93\% computation cost on the attention module
compared with the original Transformer, while maintaining the performance.
- Abstract(参考訳): 文書レベルの文脈情報を導入することにより,談話現象を扱う上で,文書レベルのニューラルネットワーク翻訳(DocNMT)が重要であることが証明されている。
最も重要な方向の1つは、ドキュメント全体を標準トランスフォーマーモデルに直接入力することである。
この場合、効率性は注意モジュールの二次的な複雑さのために重要な問題となる。
既存の研究はエンコーダ部分に焦点を当てており、シーケンスからシーケンスへの生成タスク、例えば機械翻訳(mt)にデプロイできないか、大幅なパフォーマンス低下に苦しむかのどちらかである。
本研究では,参加するトークンのごく一部を選択する軽量な注意に基づく追加の選択層を導入することにより,翻訳性能を20%向上させながら維持する。
推論を加速するために、パフォーマンスと次元の削減を保証するために、オリジナルの注意を生かしている。
実験の結果,本手法は最大95\%スパルシティ(5\%トークンのみ)をほぼ達成でき,性能を維持しつつ,アテンションモジュールの計算コストを従来のトランスフォーマと比較して93\%削減できることがわかった。
関連論文リスト
- FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - Input-length-shortening and text generation via attention values [1.8222946691865871]
我々は,第1層の注意和が,与えられたシーケンス内のトークンをフィルタリングするのに有効であることを示す。
また、元のシーケンスの約6%を保持するだけで86.5%の精度が得られることを示す。
論文 参考訳(メタデータ) (2023-03-14T02:11:24Z) - Skip-Attention: Improving Vision Transformers by Paying Less Attention [55.47058516775423]
視覚計算変換器(ViT)は、すべての層で高価な自己注意操作を使用する。
また,SkipAtを提案する。SkipAtは,先行層から自己注意を再利用して1層以上の注意を近似する手法である。
本稿では,画像の分類と自己教師型学習,ADE20Kのセマンティックセグメンテーション,SIDDの画像デノイング,DAVISのビデオデノナイズにおける手法の有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:59:52Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z) - How Much Does Attention Actually Attend? Questioning the Importance of
Attention in Pretrained Transformers [59.57128476584361]
本稿では,入力依存型アテンション行列を一定値に置き換える新しい探索手法PAPAを紹介する。
入力依存の注意を払わずに、全てのモデルが競争性能を達成できることがわかった。
より弱いモデルよりも、我々の手法を適用することでより良い性能のモデルが失われることが示され、入力依存の注意機構の利用がその成功の要因である可能性が示唆された。
論文 参考訳(メタデータ) (2022-11-07T12:37:54Z) - Learning Hard Retrieval Decoder Attention for Transformers [69.40942736249397]
トランスフォーマー変換モデルは、容易に並列化できるマルチヘッドアテンション機構に基づいている。
ハード検索の注意機構は復号化の1.43倍高速であることを示す。
論文 参考訳(メタデータ) (2020-09-30T13:18:57Z) - Long-Short Term Masking Transformer: A Simple but Effective Baseline for
Document-level Neural Machine Translation [28.94748226472447]
文書レベルの翻訳における標準変換器の長所と短所について検討する。
本稿では,標準変圧器上での自己注意を隠蔽する,驚くほど単純な長短項マスクを提案する。
BLEUの強い結果が得られ、談話現象を捉えることができる。
論文 参考訳(メタデータ) (2020-09-19T00:29:51Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。