論文の概要: You Need Multiple Exiting: Dynamic Early Exiting for Accelerating
Unified Vision Language Model
- arxiv url: http://arxiv.org/abs/2211.11152v1
- Date: Mon, 21 Nov 2022 02:32:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 17:16:34.399057
- Title: You Need Multiple Exiting: Dynamic Early Exiting for Accelerating
Unified Vision Language Model
- Title(参考訳): 複数のイグジットが必要:Unified Vision Language Modelの高速化のための動的早期イグジット
- Authors: Shengkun Tang, Yaqing Wang, Zhenglun Kong, Tianchi Zhang, Yao Li,
Caiwen Ding, Yanzhi Wang, Yi Liang, Dongkuan Xu
- Abstract要約: 大規模なTransformerモデルは、統一アーキテクチャで様々な下流視覚言語タスクに大幅な改善をもたらす。
性能改善は、モデルサイズが増大し、推論速度が遅くなり、厳格化のコストが増大する。
本稿では,エンコーダとデコーダのレイヤを動的にスキップできる統一視覚言語モデルのための新しい早期終了戦略を提案する。
- 参考スコア(独自算出の注目度): 37.24203191658052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale Transformer models bring significant improvements for various
downstream vision language tasks with a unified architecture. The performance
improvements come with increasing model size, resulting in slow inference speed
and increased cost for severing. While some certain predictions benefit from
the full complexity of the large-scale model, not all of inputs need the same
amount of computation to conduct, potentially leading to computation resource
waste. To handle this challenge, early exiting is proposed to adaptively
allocate computational power in term of input complexity to improve inference
efficiency. The existing early exiting strategies usually adopt output
confidence based on intermediate layers as a proxy of input complexity to incur
the decision of skipping following layers. However, such strategies cannot
apply to encoder in the widely-used unified architecture with both encoder and
decoder due to difficulty of output confidence estimation in the encoder. It is
suboptimal in term of saving computation power to ignore the early exiting in
encoder component. To handle this challenge, we propose a novel early exiting
strategy for unified visual language models, which allows dynamically skip the
layers in encoder and decoder simultaneously in term of input layer-wise
similarities with multiple times of early exiting, namely \textbf{MuE}. By
decomposing the image and text modalities in the encoder, MuE is flexible and
can skip different layers in term of modalities, advancing the inference
efficiency while minimizing performance drop. Experiments on the SNLI-VE and MS
COCO datasets show that the proposed approach MuE can reduce expected inference
time by up to 50\% and 40\% while maintaining 99\% and 96\% performance
respectively.
- Abstract(参考訳): 大規模なトランスフォーマーモデルは、統一アーキテクチャによるダウンストリームビジョン言語タスクに大幅な改善をもたらす。
性能改善はモデルサイズが向上し、推論速度が遅くなり、厳格化のコストが増大する。
ある種の予測は大規模モデルの完全な複雑さから恩恵を受けるが、全ての入力が実行するのに同じ量の計算を必要とするわけではない。
この課題に対処するために、入力複雑性の観点から計算パワーを適応的に割り当て、推論効率を向上させる早期退避を提案する。
既存のアーリーエグジット戦略は、通常、中間層に基づく出力信頼度を入力複雑性のプロキシとして採用し、次の層をスキップするという決定を導き出す。
しかし、エンコーダの出力信頼度推定が困難であるため、エンコーダとデコーダの両方で広く使われている統一アーキテクチャでは、このような戦略は適用できない。
エンコーダコンポーネントの早期終了を無視する計算能力を省くという点では最適ではない。
この課題に対処するために,エンコーダとデコーダの層を動的にスキップし,複数回の早期退避時間,すなわちtextbf{MuE} の入力層ワイド類似性を同時に行う,統一視覚言語モデルのための新しい早期退避戦略を提案する。
エンコーダのイメージとテキストのモダリティを分解することで、muleは柔軟性があり、モダリティの観点から異なるレイヤをスキップでき、性能低下を最小限に抑えながら推論効率を向上できる。
SNLI-VEとMS COCOデータセットを用いた実験では,提案手法により予測推論時間を最大50\%,40\%まで短縮でき,それぞれ99\%,96\%の性能を維持した。
関連論文リスト
- SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity [15.872209884833977]
本稿では,メモリオーバーヘッドを削減するためのメモリ効率スケジューリング手法と,精度の劣化を最小限に抑えるためのオンライン調整機構を提案する。
SparseTemは効率の良いDetでは1.79x、CRNNでは4.72xの高速化を実現している。
論文 参考訳(メタデータ) (2024-10-28T07:13:25Z) - Dynamic layer selection in decoder-only transformers [21.18795712840146]
自然言語生成のための2つの一般的な動的推論手法を実証的に検討する。
トレーニング済みのデコーダのみのモデルでは,層スキップによる層除去が著しく堅牢であることがわかった。
また、シーケンス毎の動的計算割り当ては、大きな効率向上を約束することを示す。
論文 参考訳(メタデータ) (2024-10-26T00:44:11Z) - Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。
これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。
本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文 参考訳(メタデータ) (2024-05-17T00:52:39Z) - Efficient Transformer Encoders for Mask2Former-style models [57.54752243522298]
ECO-M2Fは、入力画像上に条件付きエンコーダ内の隠蔽層数を自己選択する戦略である。
提案手法は、性能を維持しながら、予測エンコーダの計算コストを削減する。
アーキテクチャ構成では柔軟性があり、セグメンテーションタスクを超えてオブジェクト検出まで拡張できる。
論文 参考訳(メタデータ) (2024-04-23T17:26:34Z) - Progressive Token Length Scaling in Transformer Encoders for Efficient Universal Segmentation [67.85309547416155]
ユニバーサルセグメンテーションのための強力なアーキテクチャは、マルチスケールの画像特徴を符号化し、オブジェクトクエリをマスク予測にデコードするトランスフォーマーに依存している。
Mask2Formerはその計算の50%をトランスフォーマーエンコーダでのみ使用する。
これは、エンコーダ層ごとにすべてのバックボーン機能スケールのトークンレベルの完全な表現が保持されているためである。
本稿では,パフォーマンスの犠牲を最小限に抑えながら,計算量を大幅に削減するPro-SCALEを提案する。
論文 参考訳(メタデータ) (2024-04-23T01:34:20Z) - Extreme Encoder Output Frame Rate Reduction: Improving Computational
Latencies of Large End-to-End Models [59.57732929473519]
エンコーダに複数のフレーム削減層を適用し,少数の出力フレームにエンコーダ出力を圧縮する。
入力音声の2.56秒毎に1つのエンコーダ出力フレームを生成できることを示す。
論文 参考訳(メタデータ) (2024-02-27T03:40:44Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。