論文の概要: An Efficient Transformer Decoder with Compressed Sub-layers
- arxiv url: http://arxiv.org/abs/2101.00542v3
- Date: Wed, 10 May 2023 07:31:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 18:04:23.201788
- Title: An Efficient Transformer Decoder with Compressed Sub-layers
- Title(参考訳): 圧縮サブ層を有する高効率変圧器デコーダ
- Authors: Yanyang Li, Ye Lin, Tong Xiao, Jingbo Zhu
- Abstract要約: いくつかの穏やかな条件下では、サブレイヤを圧縮することでアーキテクチャを単純化できることが示される。
本稿では,デコーダ層が3層ではなく1層のみで構成された圧縮注意ネットワークを提案する。
14のWMT機械翻訳タスクの実験では、我々のモデルは1.42倍高速であり、性能は強いベースラインと同等である。
- 参考スコア(独自算出の注目度): 41.806318925777425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The large attention-based encoder-decoder network (Transformer) has become
prevailing recently due to its effectiveness. But the high computation
complexity of its decoder raises the inefficiency issue. By examining the
mathematic formulation of the decoder, we show that under some mild conditions,
the architecture could be simplified by compressing its sub-layers, the basic
building block of Transformer, and achieves a higher parallelism. We thereby
propose Compressed Attention Network, whose decoder layer consists of only one
sub-layer instead of three. Extensive experiments on 14 WMT machine translation
tasks show that our model is 1.42x faster with performance on par with a strong
baseline. This strong baseline is already 2x faster than the widely used
standard baseline without loss in performance.
- Abstract(参考訳): 大規模な注意に基づくエンコーダ・デコーダネットワーク(transformer)が最近普及している。
しかし、そのデコーダの計算の複雑さは非効率な問題を引き起こす。
復号器の数学的定式化を検討することにより, 若干の穏やかな条件下で, トランスフォーマーの基本構造であるサブ層を圧縮することにより, アーキテクチャを単純化し, 高い並列性を実現することを示す。
そこで本研究では,デコーダ層が3層ではなく1層のみからなる圧縮アテンションネットワークを提案する。
14のWMT機械翻訳タスクに対する大規模な実験により、我々のモデルは1.42倍高速であり、性能は強いベースラインと同等であることがわかった。
この強力なベースラインは、パフォーマンスを損なうことなく、広く使われている標準ベースラインよりも2倍高速である。
関連論文リスト
- Progressive Token Length Scaling in Transformer Encoders for Efficient Universal Segmentation [67.85309547416155]
ユニバーサルセグメンテーションのための強力なアーキテクチャは、マルチスケールの画像特徴を符号化し、オブジェクトクエリをマスク予測にデコードするトランスフォーマーに依存している。
Mask2Formerはその計算の50%をトランスフォーマーエンコーダでのみ使用する。
これは、エンコーダ層ごとにすべてのバックボーン機能スケールのトークンレベルの完全な表現が保持されているためである。
本稿では,パフォーマンスの犠牲を最小限に抑えながら,計算量を大幅に削減するPro-SCALEを提案する。
論文 参考訳(メタデータ) (2024-04-23T01:34:20Z) - Efficient Encoder-Decoder Transformer Decoding for Decomposable Tasks [53.550782959908524]
エンコーダ・デコーダモデルのための新しい構成を導入し、構造化された出力と分解可能なタスクの効率を改善する。
提案手法は,インプットを一度エンコードして並列にデコードすることで,トレーニングと推論の効率を向上する。
論文 参考訳(メタデータ) (2024-03-19T19:27:23Z) - Extreme Encoder Output Frame Rate Reduction: Improving Computational
Latencies of Large End-to-End Models [59.57732929473519]
エンコーダに複数のフレーム削減層を適用し,少数の出力フレームにエンコーダ出力を圧縮する。
入力音声の2.56秒毎に1つのエンコーダ出力フレームを生成できることを示す。
論文 参考訳(メタデータ) (2024-02-27T03:40:44Z) - DEED: Dynamic Early Exit on Decoder for Accelerating Encoder-Decoder
Transformer Models [22.276574156358084]
我々は,各デコーダ層が妥当な予測を生成できるように,深層監視で訓練されたマルチエキシット・エンコーダ・デコーダ・トランスフォーマモデルを構築した。
提案手法は,ベースラインに比べて精度が向上し,全体の推論遅延を30%から60%削減できることを示す。
論文 参考訳(メタデータ) (2023-11-15T01:01:02Z) - NASH: A Simple Unified Framework of Structured Pruning for Accelerating
Encoder-Decoder Language Models [29.468888611690346]
本稿では、エンコーダを狭め、エンコーダ-デコーダモデルのデコーダネットワークを短縮する、シンプルで効果的なフレームワークNASHを提案する。
その結果,(1)デコーダの層数が推論速度の主要因であること,(2)プルーンドエンコーダネットワークの低間隔性が生成品質を向上させること,の2つの知見が明らかになった。
論文 参考訳(メタデータ) (2023-10-16T04:27:36Z) - Real-Time Target Sound Extraction [13.526450617545537]
実時間およびストリーミングターゲット音抽出を実現するためのニューラルネットワークモデルを提案する。
本稿では,エンコーダとして拡張因果畳み込みレイヤを積み重ねたエンコーダデコーダアーキテクチャであるWaveformerと,デコーダとしてトランスフォーマデコーダレイヤを提案する。
論文 参考訳(メタデータ) (2022-11-04T03:51:23Z) - GTrans: Grouping and Fusing Transformer Layers for Neural Machine
Translation [107.2752114891855]
トランスフォーマー構造は、エンコーダとデコーダのネットワーク層によって積み重ねられ、ニューラルマシン翻訳において大きな発展を遂げる。
本稿では,エンコーダとデコーダの多層表現を異なるグループに柔軟に分割し,これらの特徴を融合して目的語を生成するグループトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-07-29T04:10:36Z) - CarNet: A Lightweight and Efficient Encoder-Decoder Architecture for
High-quality Road Crack Detection [21.468229247797627]
高速かつ高品質な亀裂検出のための軽量エンコーダデコーダアーキテクチャであるCarNetを提案する。
特に、理想的なエンコーダは、異なる段階における畳み込み層数に関するオリーブ型分布を示すべきである。
デコーダでは、クラック検出のためのリッチな階層的特徴を学習するために、軽量なアップサンプリング機能ピラミッドモジュールを導入する。
論文 参考訳(メタデータ) (2021-09-13T05:01:34Z) - Instantaneous Grammatical Error Correction with Shallow Aggressive
Decoding [57.08875260900373]
即時文法的誤り訂正(GEC)のためのトランスフォーマーのオンライン推論効率を改善するために,Shallow Aggressive Decoding (SAD)を提案する。
SADは、計算並列性を改善するために、各ステップで1つのトークンだけを復号するのではなく、可能な限り多くのトークンを並列に復号する。
英語と中国語のGECベンチマークでの実験では、アグレッシブな復号化がオンライン推論の大幅なスピードアップをもたらす可能性がある。
論文 参考訳(メタデータ) (2021-06-09T10:30:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。