論文の概要: LiteVAR: Compressing Visual Autoregressive Modelling with Efficient Attention and Quantization
- arxiv url: http://arxiv.org/abs/2411.17178v1
- Date: Tue, 26 Nov 2024 07:32:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:35:08.467613
- Title: LiteVAR: Compressing Visual Autoregressive Modelling with Efficient Attention and Quantization
- Title(参考訳): LiteVAR: 効率的な注意と量子化による視覚自己回帰モデル圧縮
- Authors: Rui Xie, Tianchen Zhao, Zhihang Yuan, Rui Wan, Wenxi Gao, Zhenhua Zhu, Xuefei Ning, Yu Wang,
- Abstract要約: 現在のARベースのビジュアル生成モデルは、リソース制約のあるデバイスに適用性を制限するために、かなりの計算資源を必要とする。
性能を維持しつつ,VARモデルの効率を向上させるために,効率的な注意機構と低ビット量子化手法を提案する。
- 参考スコア(独自算出の注目度): 17.190984773586745
- License:
- Abstract: Visual Autoregressive (VAR) has emerged as a promising approach in image generation, offering competitive potential and performance comparable to diffusion-based models. However, current AR-based visual generation models require substantial computational resources, limiting their applicability on resource-constrained devices. To address this issue, we conducted analysis and identified significant redundancy in three dimensions of the VAR model: (1) the attention map, (2) the attention outputs when using classifier free guidance, and (3) the data precision. Correspondingly, we proposed efficient attention mechanism and low-bit quantization method to enhance the efficiency of VAR models while maintaining performance. With negligible performance lost (less than 0.056 FID increase), we could achieve 85.2% reduction in attention computation, 50% reduction in overall memory and 1.5x latency reduction. To ensure deployment feasibility, we developed efficient training-free compression techniques and analyze the deployment feasibility and efficiency gain of each technique.
- Abstract(参考訳): Visual Autoregressive (VAR)は画像生成において有望なアプローチとして登場し、拡散ベースのモデルに匹敵する競争力とパフォーマンスを提供する。
しかし、現在のARベースのビジュアルジェネレーションモデルは、かなりの計算資源を必要とし、リソース制約のあるデバイスに適用性を制限する。
この問題に対処するため,VARモデルの3次元における有意な冗長性を解析・同定し,(1)注意マップ,(2)分類器フリーガイダンスを用いた場合の注意出力,(3)データ精度について検討した。
これに対応して,性能を維持しつつ,VARモデルの効率を向上させるために,効率的な注意機構と低ビット量子化手法を提案する。
無視可能な性能が失われ(0.056 FIDの増加未満)、注意計算の85.2%の削減、メモリ全体の50%の削減、1.5倍のレイテンシの削減が達成できた。
デプロイメントの実現性を確保するため,効率的なトレーニングフリー圧縮技術を開発し,各手法の展開可能性と効率性について分析した。
関連論文リスト
- SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer [50.04304674778762]
本稿では,テキスト・画像生成における効率的なスケーリングを実現する線形拡散変換器であるSANA-1.5を提案する。
効率的なトレーニングスケーリング、モデルの深さ決定、推論時間スケーリングの3つの重要なイノベーションを紹介します。
これらの戦略を通じて、SANA-1.5はGenEvalのテキスト計算画像アライメントスコア0.72を達成し、推論スケーリングによりさらに0.80に改善できる。
論文 参考訳(メタデータ) (2025-01-30T15:31:48Z) - ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - Ali-AUG: Innovative Approaches to Labeled Data Augmentation using One-Step Diffusion Model [0.14999444543328289]
Ali-AUGは、産業応用における効率的なラベル付きデータ拡張のための新しい単一ステップ拡散モデルである。
提案手法は, 正確な特徴挿入を伴う合成ラベル付き画像を生成することで, 限られたラベル付きデータの課題に対処する。
論文 参考訳(メタデータ) (2024-10-24T12:12:46Z) - ReduceFormer: Attention with Tensor Reduction by Summation [4.985969607297595]
注意を払って効率よく最適化されたモデルのファミリーであるReduceeFormerを紹介します。
ReduceFormerは、reduceやement-wise multiplicationといった単純な操作のみを活用するため、アーキテクチャが大幅に単純化され、推論性能が向上した。
提案するモデルファミリは,計算資源とメモリ帯域幅が限られているエッジデバイスや,高いスループットを求めるクラウドコンピューティングに適している。
論文 参考訳(メタデータ) (2024-06-11T17:28:09Z) - LD-Pruner: Efficient Pruning of Latent Diffusion Models using Task-Agnostic Insights [2.8461446020965435]
本稿では,遅延拡散モデル圧縮のための新しい性能保存型構造化プルーニング手法であるLD-Prunerを紹介する。
我々は,テキスト・トゥ・イメージ(T2I)生成,無条件画像生成(UIG),無条件音声生成(UAG)の3つのタスクに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-04-18T06:35:37Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Sample Less, Learn More: Efficient Action Recognition via Frame Feature
Restoration [59.6021678234829]
本稿では,2つのスパースサンプリングおよび隣接するビデオフレームの中間特徴を復元する新しい手法を提案する。
提案手法の統合により, 一般的な3つのベースラインの効率は50%以上向上し, 認識精度は0.5%低下した。
論文 参考訳(メタデータ) (2023-07-27T13:52:42Z) - AttentionLite: Towards Efficient Self-Attention Models for Vision [9.957033392865982]
本稿では,リソース制約のあるアプリケーションに対して,パラメータのクラスを生成・計算するための新しいフレームワークである attentionliteable を提案する。
計算量の多い教師から知識を同時蒸留でき、同時に学生モデルを1回の訓練パスで刈り取ることができる。
論文 参考訳(メタデータ) (2020-12-21T17:54:09Z) - Towards Practical Lipreading with Distilled and Efficient Models [57.41253104365274]
ニューラルネットワークの復活により、リリーディングは多くの進歩を目の当たりにした。
最近の研究は、最適なアーキテクチャを見つけるか、一般化を改善することで、パフォーマンスを改善するといった側面に重点を置いている。
現在の方法論と、実践的なシナリオにおける効果的なリップリーディングのデプロイ要件との間には、依然として大きなギャップがあります。
まず, LRW と LRW-1000 をそれぞれ 88.5% と 46.6% に比例して, 最先端の性能を高めることを提案する。
論文 参考訳(メタデータ) (2020-07-13T16:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。