Fugu-MT 論文翻訳(概要): You Need Multiple Exiting: Dynamic Early Exiting for Accelerating Unified Vision Language Model

論文の概要: You Need Multiple Exiting: Dynamic Early Exiting for Accelerating Unified Vision Language Model

arxiv url: http://arxiv.org/abs/2211.11152v1
Date: Mon, 21 Nov 2022 02:32:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-22 17:16:34.399057
Title: You Need Multiple Exiting: Dynamic Early Exiting for Accelerating Unified Vision Language Model
Title（参考訳）: 複数のイグジットが必要:Unified Vision Language Modelの高速化のための動的早期イグジット
Authors: Shengkun Tang, Yaqing Wang, Zhenglun Kong, Tianchi Zhang, Yao Li, Caiwen Ding, Yanzhi Wang, Yi Liang, Dongkuan Xu
Abstract要約: 大規模なTransformerモデルは、統一アーキテクチャで様々な下流視覚言語タスクに大幅な改善をもたらす。性能改善は、モデルサイズが増大し、推論速度が遅くなり、厳格化のコストが増大する。本稿では,エンコーダとデコーダのレイヤを動的にスキップできる統一視覚言語モデルのための新しい早期終了戦略を提案する。
参考スコア（独自算出の注目度）: 37.24203191658052
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large-scale Transformer models bring significant improvements for various downstream vision language tasks with a unified architecture. The performance improvements come with increasing model size, resulting in slow inference speed and increased cost for severing. While some certain predictions benefit from the full complexity of the large-scale model, not all of inputs need the same amount of computation to conduct, potentially leading to computation resource waste. To handle this challenge, early exiting is proposed to adaptively allocate computational power in term of input complexity to improve inference efficiency. The existing early exiting strategies usually adopt output confidence based on intermediate layers as a proxy of input complexity to incur the decision of skipping following layers. However, such strategies cannot apply to encoder in the widely-used unified architecture with both encoder and decoder due to difficulty of output confidence estimation in the encoder. It is suboptimal in term of saving computation power to ignore the early exiting in encoder component. To handle this challenge, we propose a novel early exiting strategy for unified visual language models, which allows dynamically skip the layers in encoder and decoder simultaneously in term of input layer-wise similarities with multiple times of early exiting, namely \textbf{MuE}. By decomposing the image and text modalities in the encoder, MuE is flexible and can skip different layers in term of modalities, advancing the inference efficiency while minimizing performance drop. Experiments on the SNLI-VE and MS COCO datasets show that the proposed approach MuE can reduce expected inference time by up to 50\% and 40\% while maintaining 99\% and 96\% performance respectively.
Abstract（参考訳）: 大規模なトランスフォーマーモデルは、統一アーキテクチャによるダウンストリームビジョン言語タスクに大幅な改善をもたらす。性能改善はモデルサイズが向上し、推論速度が遅くなり、厳格化のコストが増大する。ある種の予測は大規模モデルの完全な複雑さから恩恵を受けるが、全ての入力が実行するのに同じ量の計算を必要とするわけではない。この課題に対処するために、入力複雑性の観点から計算パワーを適応的に割り当て、推論効率を向上させる早期退避を提案する。既存のアーリーエグジット戦略は、通常、中間層に基づく出力信頼度を入力複雑性のプロキシとして採用し、次の層をスキップするという決定を導き出す。しかし、エンコーダの出力信頼度推定が困難であるため、エンコーダとデコーダの両方で広く使われている統一アーキテクチャでは、このような戦略は適用できない。エンコーダコンポーネントの早期終了を無視する計算能力を省くという点では最適ではない。この課題に対処するために,エンコーダとデコーダの層を動的にスキップし,複数回の早期退避時間,すなわちtextbf{MuE} の入力層ワイド類似性を同時に行う,統一視覚言語モデルのための新しい早期退避戦略を提案する。エンコーダのイメージとテキストのモダリティを分解することで、muleは柔軟性があり、モダリティの観点から異なるレイヤをスキップでき、性能低下を最小限に抑えながら推論効率を向上できる。 SNLI-VEとMS COCOデータセットを用いた実験では,提案手法により予測推論時間を最大50\%,40\%まで短縮でき,それぞれ99\%,96\%の性能を維持した。

関連論文リスト

Modality Agnostic Efficient Long Range Encoder [14.705955027331674]
汎用実装を用いた単一デバイス上での長文処理の課題に対処する。これらの制約を克服するために、統一的で効率的なトランスアーキテクチャであるMAELREを提案する。我々は、MAELREが既存の長文モデルと比較して計算コストを低減しつつ、優れた精度を達成できることを実証した。
論文参考訳（メタデータ） (2025-07-25T16:19:47Z)
A Hybrid Early-Exit Algorithm for Large Language Models Based on Space Alignment Decoding (SPADE) [3.1775609005777024]
大規模言語モデルは、その深い構造のために計算コストが高い。中間層表現を出力層に整合させる新しい復号法であるSPADEを提案する。我々は,SPADEを用いて高品質な出力を生成しながら,信頼度を監視し,中間層での推論を停止するハイブリッド・アーリーエグジットアルゴリズムを開発した。
論文参考訳（メタデータ） (2025-07-23T15:49:03Z)
AdaDecode: Accelerating LLM Decoding with Adaptive Layer Parallelism [17.858104076062897]
大規模言語モデル (LLM) は、長いコンテンツ生成にますます使われている。補助モデルや元のモデルパラメータの変更を必要とせずにデコーディングを高速化するAdaDecodeを提案する。 AdaDecodeは最大1.73倍のスピードアップで優れた復号処理を実現している。
論文参考訳（メタデータ） (2025-06-04T08:32:30Z)
Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [49.77734021302196]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。その結果,TOFCはデータ転送オーバヘッドの最大60%削減,システム遅延の50%削減を実現している。
論文参考訳（メタデータ） (2025-03-17T08:37:22Z)
SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity [15.872209884833977]
本稿では,メモリオーバーヘッドを削減するためのメモリ効率スケジューリング手法と,精度の劣化を最小限に抑えるためのオンライン調整機構を提案する。 SparseTemは効率の良いDetでは1.79x、CRNNでは4.72xの高速化を実現している。
論文参考訳（メタデータ） (2024-10-28T07:13:25Z)
Dynamic layer selection in decoder-only transformers [21.18795712840146]
自然言語生成のための2つの一般的な動的推論手法を実証的に検討する。トレーニング済みのデコーダのみのモデルでは,層スキップによる層除去が著しく堅牢であることがわかった。また、シーケンス毎の動的計算割り当ては、大きな効率向上を約束することを示す。
論文参考訳（メタデータ） (2024-10-26T00:44:11Z)
Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文参考訳（メタデータ） (2024-05-17T00:52:39Z)
Efficient Transformer Encoders for Mask2Former-style models [57.54752243522298]
ECO-M2Fは、入力画像上に条件付きエンコーダ内の隠蔽層数を自己選択する戦略である。提案手法は、性能を維持しながら、予測エンコーダの計算コストを削減する。アーキテクチャ構成では柔軟性があり、セグメンテーションタスクを超えてオブジェクト検出まで拡張できる。
論文参考訳（メタデータ） (2024-04-23T17:26:34Z)
Progressive Token Length Scaling in Transformer Encoders for Efficient Universal Segmentation [67.85309547416155]
ユニバーサルセグメンテーションのための強力なアーキテクチャは、マルチスケールの画像特徴を符号化し、オブジェクトクエリをマスク予測にデコードするトランスフォーマーに依存している。 Mask2Formerはその計算の50%をトランスフォーマーエンコーダでのみ使用する。これは、エンコーダ層ごとにすべてのバックボーン機能スケールのトークンレベルの完全な表現が保持されているためである。本稿では,パフォーマンスの犠牲を最小限に抑えながら,計算量を大幅に削減するPro-SCALEを提案する。
論文参考訳（メタデータ） (2024-04-23T01:34:20Z)
Extreme Encoder Output Frame Rate Reduction: Improving Computational Latencies of Large End-to-End Models [59.57732929473519]
エンコーダに複数のフレーム削減層を適用し,少数の出力フレームにエンコーダ出力を圧縮する。入力音声の2.56秒毎に1つのエンコーダ出力フレームを生成できることを示す。
論文参考訳（メタデータ） (2024-02-27T03:40:44Z)
Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-12-16T11:15:39Z)
Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文参考訳（メタデータ） (2022-07-14T17:00:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。