論文の概要: DEED: Dynamic Early Exit on Decoder for Accelerating Encoder-Decoder
Transformer Models
- arxiv url: http://arxiv.org/abs/2311.08623v1
- Date: Wed, 15 Nov 2023 01:01:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 17:38:59.525981
- Title: DEED: Dynamic Early Exit on Decoder for Accelerating Encoder-Decoder
Transformer Models
- Title(参考訳): deed: エンコーダ-デコーダトランスフォーマモデルを高速化するためのデコーダの動的早期出口
- Authors: Peng Tang, Pengkai Zhu, Tian Li, Srikar Appalaraju, Vijay Mahadevan,
R. Manmatha
- Abstract要約: 我々は,各デコーダ層が妥当な予測を生成できるように,深層監視で訓練されたマルチエキシット・エンコーダ・デコーダ・トランスフォーマモデルを構築した。
提案手法は,ベースラインに比べて精度が向上し,全体の推論遅延を30%から60%削減できることを示す。
- 参考スコア(独自算出の注目度): 22.276574156358084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Encoder-decoder transformer models have achieved great success on various
vision-language (VL) tasks, but they suffer from high inference latency.
Typically, the decoder takes up most of the latency because of the
auto-regressive decoding. To accelerate the inference, we propose an approach
of performing Dynamic Early Exit on Decoder (DEED). We build a multi-exit
encoder-decoder transformer model which is trained with deep supervision so
that each of its decoder layers is capable of generating plausible predictions.
In addition, we leverage simple yet practical techniques, including shared
generation head and adaptation modules, to keep accuracy when exiting at
shallow decoder layers. Based on the multi-exit model, we perform step-level
dynamic early exit during inference, where the model may decide to use fewer
decoder layers based on its confidence of the current layer at each individual
decoding step. Considering different number of decoder layers may be used at
different decoding steps, we compute deeper-layer decoder features of previous
decoding steps just-in-time, which ensures the features from different decoding
steps are semantically aligned. We evaluate our approach with two
state-of-the-art encoder-decoder transformer models on various VL tasks. We
show our approach can reduce overall inference latency by 30%-60% with
comparable or even higher accuracy compared to baselines.
- Abstract(参考訳): エンコーダ・デコーダ変換モデルは様々な視覚言語(VL)タスクで大きな成功を収めているが、高い推論遅延に悩まされている。
通常、デコーダは自動回帰デコードのため、ほとんどの遅延を処理します。
推論を高速化するため,Decoder (DEED) 上で動的早期実行を行う手法を提案する。
我々は,マルチエクイットエンコーダ・デコーダトランスフォーマモデルを構築し,各デコーダ層が妥当な予測を生成できるように,深い監視を施したトレーニングを行う。
さらに,共有生成ヘッドや適応モジュールなど,単純かつ実用的な手法を活用し,浅いデコーダ層を出る際の精度を維持する。
マルチエクイットモデルに基づき、推論中にステップレベルの動的早期終了を行い、各復号ステップにおける現在のレイヤの信頼度に基づいて、モデルがより少ないデコーダ層を使用することを決定できる。
異なるデコーダ層が異なるデコーダステップで使用される可能性があることを考慮し、以前のデコーダステップの深層デコーダ機能をジャストインタイムで計算し、異なるデコーダ層の機能を意味的にアライメントすることを保証する。
各種VLタスクにおける2つの最先端エンコーダ・デコーダ変換モデルを用いて,本手法の評価を行った。
提案手法は,ベースラインに比べて精度が向上し,全体の推論遅延を30%から60%削減できることを示す。
関連論文リスト
- Efficient Encoder-Decoder Transformer Decoding for Decomposable Tasks [53.550782959908524]
エンコーダ・デコーダモデルのための新しい構成を導入し、構造化された出力と分解可能なタスクの効率を改善する。
提案手法は,インプットを一度エンコードして並列にデコードすることで,トレーニングと推論の効率を向上する。
論文 参考訳(メタデータ) (2024-03-19T19:27:23Z) - Stateful Conformer with Cache-based Inference for Streaming Automatic Speech Recognition [20.052245837954175]
本稿では,FastConformerアーキテクチャに基づく,効率的かつ正確な音声認識モデルを提案する。
我々は,非自己回帰エンコーダが推論中に自己回帰的に動作できるようにするために,アクティベーションキャッシング機構を導入する。
CTCとRNNTデコーダを共用した共有エンコーダを用いたハイブリッドCTC/RNNTアーキテクチャにより、精度の向上と計算の保存が可能となる。
論文 参考訳(メタデータ) (2023-12-27T21:04:26Z) - Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference [95.42299246592756]
本稿では,UNetエンコーダについて検討し,エンコーダの特徴を実証的に分析する。
エンコーダの特徴は最小限に変化するが,デコーダの特徴は時間段階によって大きく異なる。
我々は、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-12-15T08:46:43Z) - NASH: A Simple Unified Framework of Structured Pruning for Accelerating
Encoder-Decoder Language Models [29.468888611690346]
本稿では、エンコーダを狭め、エンコーダ-デコーダモデルのデコーダネットワークを短縮する、シンプルで効果的なフレームワークNASHを提案する。
その結果,(1)デコーダの層数が推論速度の主要因であること,(2)プルーンドエンコーダネットワークの低間隔性が生成品質を向上させること,の2つの知見が明らかになった。
論文 参考訳(メタデータ) (2023-10-16T04:27:36Z) - Think Twice before Driving: Towards Scalable Decoders for End-to-End
Autonomous Driving [74.28510044056706]
既存のメソッドは通常、分離されたエンコーダ-デコーダパラダイムを採用する。
本研究は,この問題を2つの原則で緩和することを目的としている。
まず、エンコーダの特徴に基づいて、粗い将来の位置と行動を予測する。
そして、その位置と動作を条件に、将来のシーンを想像して、それに従って運転した場合にその影響を確認する。
論文 参考訳(メタデータ) (2023-05-10T15:22:02Z) - String-based Molecule Generation via Multi-decoder VAE [56.465033997245776]
可変オートエンコーダ(VAE)による文字列型分子生成の問題点について検討する。
本稿では,そのタスクに対するVAEの性能を改善するための,シンプルで効果的なアイデアを提案する。
実験では,提案するVAEモデルを用いて,領域外分布からサンプルを生成する。
論文 参考訳(メタデータ) (2022-08-23T03:56:30Z) - Rethinking and Improving Natural Language Generation with Layer-Wise
Multi-View Decoding [59.48857453699463]
シーケンシャル・ツー・シーケンス学習では、デコーダは注意機構に依存してエンコーダから情報を効率的に抽出する。
近年の研究では、異なるエンコーダ層からの表現を多様なレベルの情報に利用することが提案されている。
本稿では, 各デコーダ層に対して, グローバルビューとして機能する最後のエンコーダ層からの表現とともに, ソースシーケンスの立体視のために他のエンコーダ層からのデコーダ層からのデコーダ層を補足するレイヤワイド・マルチビューデコーダを提案する。
論文 参考訳(メタデータ) (2020-05-16T20:00:39Z) - On Sparsifying Encoder Outputs in Sequence-to-Sequence Models [90.58793284654692]
我々はTransformerをテストベッドとして、エンコーダとデコーダの間にあるゲートの層を導入します。
ゲートは、パリシティ誘導L0ペナルティの期待値を用いて正規化される。
このスペーサー化が2つの機械翻訳と2つの要約タスクに与える影響について検討する。
論文 参考訳(メタデータ) (2020-04-24T16:57:52Z) - Balancing Cost and Benefit with Tied-Multi Transformers [24.70761584719857]
シーケンス・ツー・シーケンス・モデリングでは、N層エンコーダの最後の層の出力をM層デコーダに供給し、最後のデコーダ層の出力を用いて損失を算出する。
提案手法はNxM損失からなる単一損失を計算し,各損失をNエンコーダ層に接続されたMデコーダ層の出力から算出する。
このようなモデルは、エンコーダ層とデコーダ層の数が異なるNxMモデルを仮定し、エンコーダ層とデコーダ層の最大数より少ないデコードに使用できる。
論文 参考訳(メタデータ) (2020-02-20T08:20:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。