論文の概要: You Need Multiple Exiting: Dynamic Early Exiting for Accelerating
Unified Vision Language Model
- arxiv url: http://arxiv.org/abs/2211.11152v1
- Date: Mon, 21 Nov 2022 02:32:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 17:16:34.399057
- Title: You Need Multiple Exiting: Dynamic Early Exiting for Accelerating
Unified Vision Language Model
- Title(参考訳): 複数のイグジットが必要:Unified Vision Language Modelの高速化のための動的早期イグジット
- Authors: Shengkun Tang, Yaqing Wang, Zhenglun Kong, Tianchi Zhang, Yao Li,
Caiwen Ding, Yanzhi Wang, Yi Liang, Dongkuan Xu
- Abstract要約: 大規模なTransformerモデルは、統一アーキテクチャで様々な下流視覚言語タスクに大幅な改善をもたらす。
性能改善は、モデルサイズが増大し、推論速度が遅くなり、厳格化のコストが増大する。
本稿では,エンコーダとデコーダのレイヤを動的にスキップできる統一視覚言語モデルのための新しい早期終了戦略を提案する。
- 参考スコア(独自算出の注目度): 37.24203191658052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale Transformer models bring significant improvements for various
downstream vision language tasks with a unified architecture. The performance
improvements come with increasing model size, resulting in slow inference speed
and increased cost for severing. While some certain predictions benefit from
the full complexity of the large-scale model, not all of inputs need the same
amount of computation to conduct, potentially leading to computation resource
waste. To handle this challenge, early exiting is proposed to adaptively
allocate computational power in term of input complexity to improve inference
efficiency. The existing early exiting strategies usually adopt output
confidence based on intermediate layers as a proxy of input complexity to incur
the decision of skipping following layers. However, such strategies cannot
apply to encoder in the widely-used unified architecture with both encoder and
decoder due to difficulty of output confidence estimation in the encoder. It is
suboptimal in term of saving computation power to ignore the early exiting in
encoder component. To handle this challenge, we propose a novel early exiting
strategy for unified visual language models, which allows dynamically skip the
layers in encoder and decoder simultaneously in term of input layer-wise
similarities with multiple times of early exiting, namely \textbf{MuE}. By
decomposing the image and text modalities in the encoder, MuE is flexible and
can skip different layers in term of modalities, advancing the inference
efficiency while minimizing performance drop. Experiments on the SNLI-VE and MS
COCO datasets show that the proposed approach MuE can reduce expected inference
time by up to 50\% and 40\% while maintaining 99\% and 96\% performance
respectively.
- Abstract(参考訳): 大規模なトランスフォーマーモデルは、統一アーキテクチャによるダウンストリームビジョン言語タスクに大幅な改善をもたらす。
性能改善はモデルサイズが向上し、推論速度が遅くなり、厳格化のコストが増大する。
ある種の予測は大規模モデルの完全な複雑さから恩恵を受けるが、全ての入力が実行するのに同じ量の計算を必要とするわけではない。
この課題に対処するために、入力複雑性の観点から計算パワーを適応的に割り当て、推論効率を向上させる早期退避を提案する。
既存のアーリーエグジット戦略は、通常、中間層に基づく出力信頼度を入力複雑性のプロキシとして採用し、次の層をスキップするという決定を導き出す。
しかし、エンコーダの出力信頼度推定が困難であるため、エンコーダとデコーダの両方で広く使われている統一アーキテクチャでは、このような戦略は適用できない。
エンコーダコンポーネントの早期終了を無視する計算能力を省くという点では最適ではない。
この課題に対処するために,エンコーダとデコーダの層を動的にスキップし,複数回の早期退避時間,すなわちtextbf{MuE} の入力層ワイド類似性を同時に行う,統一視覚言語モデルのための新しい早期退避戦略を提案する。
エンコーダのイメージとテキストのモダリティを分解することで、muleは柔軟性があり、モダリティの観点から異なるレイヤをスキップでき、性能低下を最小限に抑えながら推論効率を向上できる。
SNLI-VEとMS COCOデータセットを用いた実験では,提案手法により予測推論時間を最大50\%,40\%まで短縮でき,それぞれ99\%,96\%の性能を維持した。
関連論文リスト
- Extreme Encoder Output Frame Rate Reduction: Improving Computational
Latencies of Large End-to-End Models [59.57732929473519]
エンコーダに複数のフレーム削減層を適用し,少数の出力フレームにエンコーダ出力を圧縮する。
入力音声の2.56秒毎に1つのエンコーダ出力フレームを生成できることを示す。
論文 参考訳(メタデータ) (2024-02-27T03:40:44Z) - Chimera: A Lossless Decoding Method for Accelerating Large Language
Models Inference by Fusing all Tokens [25.677308132947218]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。
このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。
我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文 参考訳(メタデータ) (2024-02-24T08:10:39Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Consistency Training of Multi-exit Architectures for Sensor Data [0.07614628596146598]
本稿では,一貫した出口訓練(Continuous exit training)と呼ばれるマルチエクイットアーキテクチャの堅牢なトレーニングのための,新規かつアーキテクチャに依存しないアプローチを提案する。
弱監督を利用して、モデルの出力を整合性トレーニングと整合させ、ネットワーク内の出口に対してマルチタスク学習方式で二重空間を協調的に最適化する。
論文 参考訳(メタデータ) (2021-09-27T17:11:25Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。