論文の概要: NASH: A Simple Unified Framework of Structured Pruning for Accelerating
Encoder-Decoder Language Models
- arxiv url: http://arxiv.org/abs/2310.10054v1
- Date: Mon, 16 Oct 2023 04:27:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 16:41:57.180037
- Title: NASH: A Simple Unified Framework of Structured Pruning for Accelerating
Encoder-Decoder Language Models
- Title(参考訳): NASH:エンコーダ-デコーダ言語モデルの高速化のための構造化プルーニングの簡易統一フレームワーク
- Authors: Jongwoo Ko, Seungjoon Park, Yujin Kim, Sumyeong Ahn, Du-Seong Chang,
Euijai Ahn, Se-Young Yun
- Abstract要約: 本稿では、エンコーダを狭め、エンコーダ-デコーダモデルのデコーダネットワークを短縮する、シンプルで効果的なフレームワークNASHを提案する。
その結果,(1)デコーダの層数が推論速度の主要因であること,(2)プルーンドエンコーダネットワークの低間隔性が生成品質を向上させること,の2つの知見が明らかになった。
- 参考スコア(独自算出の注目度): 29.468888611690346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Structured pruning methods have proven effective in reducing the model size
and accelerating inference speed in various network architectures such as
Transformers. Despite the versatility of encoder-decoder models in numerous NLP
tasks, the structured pruning methods on such models are relatively less
explored compared to encoder-only models. In this study, we investigate the
behavior of the structured pruning of the encoder-decoder models in the
decoupled pruning perspective of the encoder and decoder component,
respectively. Our findings highlight two insights: (1) the number of decoder
layers is the dominant factor of inference speed, and (2) low sparsity in the
pruned encoder network enhances generation quality. Motivated by these
findings, we propose a simple and effective framework, NASH, that narrows the
encoder and shortens the decoder networks of encoder-decoder models. Extensive
experiments on diverse generation and inference tasks validate the
effectiveness of our method in both speedup and output quality.
- Abstract(参考訳): 構造化プルーニング法は,トランスフォーマーなどの様々なネットワークアーキテクチャにおいて,モデルサイズの削減と推論速度の高速化に有効であることが証明されている。
多くのNLPタスクにおけるエンコーダ-デコーダモデルの汎用性にもかかわらず、そのようなモデル上の構造化プルーニング法はエンコーダのみのモデルに比べて比較的少ない。
本研究では,エンコーダ・デコーダモデルの構造的プルーニングの挙動を,エンコーダ・デコーダ・コンポーネントの分離プルーニング・パースペクティブにおいてそれぞれ検討した。
その結果,(1)デコーダの層数が推論速度の主要因であること,(2)プルーンドエンコーダネットワークの低間隔性が生成品質を向上させること,の2つの知見が明らかになった。
そこで本研究では,エンコーダを狭くし,エンコーダ-デコーダモデルのデコーダネットワークを短縮する,単純かつ効果的なフレームワークであるnashを提案する。
多様な生成および推論タスクに関する広範囲な実験は、高速化と出力品質の両方において、この手法の有効性を検証する。
関連論文リスト
- Efficient Encoder-Decoder Transformer Decoding for Decomposable Tasks [53.550782959908524]
エンコーダ・デコーダモデルのための新しい構成を導入し、構造化された出力と分解可能なタスクの効率を改善する。
提案手法は,インプットを一度エンコードして並列にデコードすることで,トレーニングと推論の効率を向上する。
論文 参考訳(メタデータ) (2024-03-19T19:27:23Z) - Extreme Encoder Output Frame Rate Reduction: Improving Computational
Latencies of Large End-to-End Models [59.57732929473519]
エンコーダに複数のフレーム削減層を適用し,少数の出力フレームにエンコーダ出力を圧縮する。
入力音声の2.56秒毎に1つのエンコーダ出力フレームを生成できることを示す。
論文 参考訳(メタデータ) (2024-02-27T03:40:44Z) - Stateful Conformer with Cache-based Inference for Streaming Automatic Speech Recognition [20.052245837954175]
本稿では,FastConformerアーキテクチャに基づく,効率的かつ正確な音声認識モデルを提案する。
我々は,非自己回帰エンコーダが推論中に自己回帰的に動作できるようにするために,アクティベーションキャッシング機構を導入する。
CTCとRNNTデコーダを共用した共有エンコーダを用いたハイブリッドCTC/RNNTアーキテクチャにより、精度の向上と計算の保存が可能となる。
論文 参考訳(メタデータ) (2023-12-27T21:04:26Z) - DEED: Dynamic Early Exit on Decoder for Accelerating Encoder-Decoder
Transformer Models [22.276574156358084]
我々は,各デコーダ層が妥当な予測を生成できるように,深層監視で訓練されたマルチエキシット・エンコーダ・デコーダ・トランスフォーマモデルを構築した。
提案手法は,ベースラインに比べて精度が向上し,全体の推論遅延を30%から60%削減できることを示す。
論文 参考訳(メタデータ) (2023-11-15T01:01:02Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - Decoder-Only or Encoder-Decoder? Interpreting Language Model as a
Regularized Encoder-Decoder [75.03283861464365]
seq2seqタスクは、与えられた入力ソースシーケンスに基づいてターゲットシーケンスを生成することを目的としている。
伝統的に、seq2seqタスクのほとんどはエンコーダによって解決され、ソースシーケンスとデコーダをエンコードしてターゲットテキストを生成する。
最近、デコーダのみの言語モデルをseq2seqタスクに直接適用する、多くの新しいアプローチが出現しました。
論文 参考訳(メタデータ) (2023-04-08T15:44:29Z) - String-based Molecule Generation via Multi-decoder VAE [56.465033997245776]
可変オートエンコーダ(VAE)による文字列型分子生成の問題点について検討する。
本稿では,そのタスクに対するVAEの性能を改善するための,シンプルで効果的なアイデアを提案する。
実験では,提案するVAEモデルを用いて,領域外分布からサンプルを生成する。
論文 参考訳(メタデータ) (2022-08-23T03:56:30Z) - CarNet: A Lightweight and Efficient Encoder-Decoder Architecture for
High-quality Road Crack Detection [21.468229247797627]
高速かつ高品質な亀裂検出のための軽量エンコーダデコーダアーキテクチャであるCarNetを提案する。
特に、理想的なエンコーダは、異なる段階における畳み込み層数に関するオリーブ型分布を示すべきである。
デコーダでは、クラック検出のためのリッチな階層的特徴を学習するために、軽量なアップサンプリング機能ピラミッドモジュールを導入する。
論文 参考訳(メタデータ) (2021-09-13T05:01:34Z) - Jointly Optimizing State Operation Prediction and Value Generation for
Dialogue State Tracking [23.828348485513043]
オープン語彙を用いた多ドメイン対話状態追跡(DST)の問題点について検討する。
既存のアプローチではBERTエンコーダとコピーベースのRNNデコーダを使用し、そこでエンコーダは状態操作を予測し、デコーダは新しいスロット値を生成する。
本稿では,1つのBERTがエンコーダとデコーダの両方として機能する,純粋にトランスフォーマーベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-24T04:54:52Z) - Beyond Single Stage Encoder-Decoder Networks: Deep Decoders for Semantic
Image Segmentation [56.44853893149365]
セマンティックセグメンテーションのための単一エンコーダ-デコーダ手法は、セマンティックセグメンテーションの品質とレイヤー数あたりの効率の観点からピークに達している。
そこで本研究では,より多くの情報コンテンツを取得するために,浅層ネットワークの集合を用いたデコーダに基づく新しいアーキテクチャを提案する。
アーキテクチャをさらに改善するために,ネットワークの注目度を高めるために,クラスの再バランスを目的とした重み関数を導入する。
論文 参考訳(メタデータ) (2020-07-19T18:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。