Fugu-MT 論文翻訳(概要): CQIL: Inference Latency Optimization with Concurrent Computation of Quasi-Independent Layers

論文の概要: CQIL: Inference Latency Optimization with Concurrent Computation of Quasi-Independent Layers

arxiv url: http://arxiv.org/abs/2404.06709v1
Date: Wed, 10 Apr 2024 03:30:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-11 15:39:25.685241
Title: CQIL: Inference Latency Optimization with Concurrent Computation of Quasi-Independent Layers
Title（参考訳）: CQIL:準独立層の同時計算による推論レイテンシ最適化
Authors: Longwei Zou, Qingyang Wang, Han Zhao, Jiangang Kong, Yi Yang, Yangdong Deng,
Abstract要約: 大規模言語モデルは、ほぼすべての自然言語処理タスクで前例のないパフォーマンスを実現している。圧倒的な複雑さは、ユーザエクスペリエンスに悪影響を及ぼす高い推論遅延を引き起こします。推定遅延を著しく低減するために並列に計算できる準独立層を同定することを提案する。
参考スコア（独自算出の注目度）: 21.91815582658188
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The fast-growing large scale language models are delivering unprecedented performance on almost all natural language processing tasks. However, the effectiveness of large language models are reliant on an exponentially increasing number of parameters. The overwhelming computation complexity incurs a high inference latency that negatively affects user experience. Existing methods to improve inference efficiency, such as tensor parallelism and quantization, target to reduce per-layer computing latency, yet overlook the cumulative latency due to the number of layers. Recent works on reducing the cumulative latency through layer removing, however, lead to significant performance drop. Motivated by the similarity of inputs among adjacent layers, we propose to identify quasi-independent layers, which can be concurrently computed to significantly decrease inference latency. We also introduce a bypassing technique to mitigate the effect of information loss. Empirical experiments of the proposed approach on the LLaMA models confirm that Concurrent Computation of Quasi-Independent Layers (CQIL) can reduce latency by up to 48.3% on the LLaMA-33B model, while maintaining a close level of performance.
Abstract（参考訳）: 急速に成長する大規模言語モデルは、ほぼすべての自然言語処理タスクで前例のないパフォーマンスを実現している。しかし、大規模言語モデルの有効性は指数関数的に増加するパラメータ数に依存している。圧倒的な計算複雑性は、ユーザエクスペリエンスに悪影響を及ぼす高い推論遅延を引き起こします。テンソル並列性や量子化などの推論効率を改善する既存の手法は、層間計算のレイテンシを低減することを目的としているが、レイヤ数による累積遅延を無視する。しかし、最近のレイヤ削除による累積遅延の低減に関する作業は、大幅なパフォーマンス低下につながっている。隣接層間の入力の類似性から,推定遅延を著しく低減するために並列に計算できる準非依存層を同定することを提案する。また,情報損失の影響を緩和するためのバイパス手法も導入する。 LLaMAモデルに対する提案手法の実証実験により、CQIL(Concurrent Computation of Quasi-Independent Layers)はLLaMA-33Bモデルにおいて、性能の密接なレベルを維持しながら、最大48.3%のレイテンシを低減できることを確認した。

関連論文リスト

Spatio-Temporal Pruning for Compressed Spiking Large Language Models [23.74945347657827]
大規模言語モデル(LLM)は、大きなモデルサイズと高い推論遅延のため、エネルギー環境への展開に重大な課題をもたらす。高速な性能を維持しながら計算効率を最適化するスパイクLDMのための新しいスパイク時空プルーニングフレームワークを提案する。私たちのアプローチは、リアルタイムで低消費電力の自然言語処理アプリケーションに魅力的なソリューションを提供します。
論文参考訳（メタデータ） (2025-08-23T22:21:47Z)
CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文参考訳（メタデータ） (2025-08-15T07:49:22Z)
Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [49.77734021302196]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。その結果,TOFCはデータ転送オーバヘッドの最大60%削減,システム遅延の50%削減を実現している。
論文参考訳（メタデータ） (2025-03-17T08:37:22Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Efficient Synaptic Delay Implementation in Digital Event-Driven AI Accelerators [1.260842513389711]
本稿では,デジタルニューロモルフィックアクセラレータ上でのシナプス遅延をサポートするハードウェア構造であるShared Circular Delay Queue (SCDQ)を紹介する。分析とハードウェアの結果から、現在の一般的なアプローチよりもメモリのスケールが優れており、アルゴリズムとハードウェアの共最適化にはさらに耐え難いことが分かる。
論文参考訳（メタデータ） (2025-01-23T12:30:04Z)
Q-VLM: Post-training Quantization for Large Vision-Language Models [73.19871905102545]
本稿では,大規模視覚言語モデル(LVLM)の学習後量子化フレームワークを提案する。視覚言語モデル全体の離散化誤差に大きな影響を及ぼす層間依存関係を抽出し、この依存関係を最適な量子化戦略に組み込む。実験の結果,提案手法はメモリを2.78倍圧縮し,出力速度を約13B LLaVAモデルで1.44倍向上させることができた。
論文参考訳（メタデータ） (2024-10-10T17:02:48Z)
Faster Diffusion Action Segmentation [9.868244939496678]
時間的行動分類(TAS)はビデオ解析において不可欠な課題であり、連続したフレームを別のアクションセグメントに分割し分類することを目的としている。拡散モデルの最近の進歩は、安定したトレーニングプロセスと高品質な生成能力により、TASタスクにおいて大きな成功を収めている。本稿では,効率的かつ高性能なTASアルゴリズムであるEffiDiffActを提案する。
論文参考訳（メタデータ） (2024-08-04T13:23:18Z)
PipeInfer: Accelerating LLM Inference using Asynchronous Pipelined Speculation [9.080650575731152]
PipeInferは、パイプライン化された投機的アクセラレーション技術で、トークン間のレイテンシを低減し、単一要求シナリオにおけるシステム利用を改善する。 PipeInferは、標準的な投機的推論よりも生成速度が2.15$times$改善されている。
論文参考訳（メタデータ） (2024-07-16T14:52:02Z)
LD-Pruner: Efficient Pruning of Latent Diffusion Models using Task-Agnostic Insights [2.8461446020965435]
本稿では,遅延拡散モデル圧縮のための新しい性能保存型構造化プルーニング手法であるLD-Prunerを紹介する。我々は,テキスト・トゥ・イメージ(T2I)生成,無条件画像生成(UIG),無条件音声生成(UAG)の3つのタスクに対するアプローチの有効性を実証する。
論文参考訳（メタデータ） (2024-04-18T06:35:37Z)
Accelerating Inference in Large Language Models with a Unified Layer Skipping Strategy [67.45518210171024]
動的計算手法は、いくつかの計算層をスキップすることで、Large Language Models (LLM) に対する顕著な加速を示す。対象の高速化率のみに基づいて計算をスキップする層数を選択する統一層スキーッピング戦略を提案する。機械翻訳とテキスト要約という2つの共通タスクの実験結果は、目標速度比が与えられた場合、統一層スキーピング戦略は推論性能と実際のモデルスループットの両方を著しく向上させることを示している。
論文参考訳（メタデータ） (2024-04-10T12:12:07Z)
Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。しかし、その大きなサイズは推論を遅く、計算的に高価にする。最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文参考訳（メタデータ） (2023-10-28T04:07:58Z)
Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。 3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文参考訳（メタデータ） (2023-08-30T10:57:41Z)
You Need Multiple Exiting: Dynamic Early Exiting for Accelerating Unified Vision Language Model [37.24203191658052]
大規模なTransformerモデルは、統一アーキテクチャで様々な下流視覚言語タスクに大幅な改善をもたらす。性能改善は、モデルサイズが増大し、推論速度が遅くなり、厳格化のコストが増大する。本稿では,エンコーダとデコーダのレイヤを動的にスキップできる統一視覚言語モデルのための新しい早期終了戦略を提案する。
論文参考訳（メタデータ） (2022-11-21T02:32:25Z)
Latency-aware Spatial-wise Dynamic Networks [33.88843632160247]
深層ネットワークのための遅延認識型空間的動的ネットワーク(LASNet)を提案する。 LASNetは、新しい遅延予測モデルのガイダンスに基づき、粗粒度空間適応推論を行う。画像分類,オブジェクト検出,インスタンスセグメンテーションの実験により,提案手法はディープネットワークの実用的な推論効率を大幅に向上させることを示した。
論文参考訳（メタデータ） (2022-10-12T14:09:27Z)
Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文参考訳（メタデータ） (2022-07-14T17:00:19Z)
AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文参考訳（メタデータ） (2020-07-14T09:07:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。