論文の概要: SkipVAR: Accelerating Visual Autoregressive Modeling via Adaptive Frequency-Aware Skipping
- arxiv url: http://arxiv.org/abs/2506.08908v1
- Date: Tue, 10 Jun 2025 15:35:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.680191
- Title: SkipVAR: Accelerating Visual Autoregressive Modeling via Adaptive Frequency-Aware Skipping
- Title(参考訳): SkipVAR: 適応周波数対応スキッピングによる視覚自己回帰モデリングの高速化
- Authors: Jiajun Li, Yue Ma, Xinyu Zhang, Qingyan Wei, Songhua Liu, Linfeng Zhang,
- Abstract要約: 生成プロセスにおける高周波コンポーネント、または後続のステップは、推論遅延に不均等に寄与する。
ステップ冗長性と非条件分岐冗長性の2つの主要な非効率性の原因を同定する。
本稿では、不要な生成ステップを選択的に省略して効率を向上させる自動ステップスキッピング戦略を提案する。
- 参考スコア(独自算出の注目度): 30.85025293160079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies on Visual Autoregressive (VAR) models have highlighted that high-frequency components, or later steps, in the generation process contribute disproportionately to inference latency. However, the underlying computational redundancy involved in these steps has yet to be thoroughly investigated. In this paper, we conduct an in-depth analysis of the VAR inference process and identify two primary sources of inefficiency: step redundancy and unconditional branch redundancy. To address step redundancy, we propose an automatic step-skipping strategy that selectively omits unnecessary generation steps to improve efficiency. For unconditional branch redundancy, we observe that the information gap between the conditional and unconditional branches is minimal. Leveraging this insight, we introduce unconditional branch replacement, a technique that bypasses the unconditional branch to reduce computational cost. Notably, we observe that the effectiveness of acceleration strategies varies significantly across different samples. Motivated by this, we propose SkipVAR, a sample-adaptive framework that leverages frequency information to dynamically select the most suitable acceleration strategy for each instance. To evaluate the role of high-frequency information, we introduce high-variation benchmark datasets that test model sensitivity to fine details. Extensive experiments show SkipVAR achieves over 0.88 average SSIM with up to 1.81x overall acceleration and 2.62x speedup on the GenEval benchmark, maintaining model quality. These results confirm the effectiveness of frequency-aware, training-free adaptive acceleration for scalable autoregressive image generation. Our code is available at https://github.com/fakerone-li/SkipVAR and has been publicly released.
- Abstract(参考訳): Visual Autoregressive(VAR)モデルに関する最近の研究は、生成プロセスの高周波コンポーネントや後続のステップが、遅延の推論に不均衡に寄与していることを強調している。
しかし、これらのステップにまつわる基礎となる計算冗長性については、まだ十分には研究されていない。
本稿では, VAR推論プロセスの詳細な解析を行い, ステップ冗長性と非条件分岐冗長性という2つの非効率性の原因を同定する。
ステップ冗長性に対処するため,不要な生成ステップを選択的に省略して効率を向上する自動ステップスキッピング戦略を提案する。
非条件分岐冗長性については、条件分岐と非条件分岐の間の情報ギャップが最小限であることが観察される。
この知見を生かして、計算コストを削減するために無条件分岐をバイパスする手法である無条件分岐置換を導入する。
特に,加速戦略の有効性は試料によって大きく異なる。
そこで本研究では、周波数情報を利用して各インスタンスに最適な加速度戦略を動的に選択するサンプル適応型フレームワークであるSkipVARを提案する。
高周波情報の役割を評価するため,細部までモデル感度をテスト可能な高偏差ベンチマークデータセットを提案する。
大規模な実験により、SkipVARは平均0.08以上のSSIMを達成し、GenEvalベンチマークでは1.81倍の加速と2.62倍のスピードアップを実現し、モデルの品質を維持している。
これらの結果は、スケーラブルな自己回帰画像生成のための周波数認識、トレーニング不要適応加速度の有効性を検証した。
私たちのコードはhttps://github.com/fakerone-li/SkipVARで公開されています。
関連論文リスト
- Optimizing Asynchronous Federated Learning: A~Delicate Trade-Off Between Model-Parameter Staleness and Update Frequency [0.9999629695552195]
我々は、非同期FLアルゴリズムにおける設計選択の影響をよりよく理解するために、モデリングと分析を用いる。
非同期FLを最適化するための基本的なトレードオフを特徴付ける。
これらの最適化は精度を10%から30%向上させる。
論文 参考訳(メタデータ) (2025-02-12T08:38:13Z) - FastSTI: A Fast Conditional Pseudo Numerical Diffusion Model for Spatio-temporal Traffic Data Imputation [4.932317347331121]
高時間トラフィックデータは、インテリジェントトランスポートシステム(ITS)とそのデータ駆動アプリケーションにとって不可欠である。
拡散確率モデルの最近の研究は、計算における深部生成モデルの優越性を証明している。
2種類の現実世界のトラフィックデータセットを高速に処理することで、高品質なサンプルをわずか6ステップでインプットできることが証明されている。
論文 参考訳(メタデータ) (2024-10-20T01:45:51Z) - REP: Resource-Efficient Prompting for Rehearsal-Free Continual Learning [23.92661395403251]
近年のリハーサルフリーな手法は,視覚関連連続学習(CL)とドリフトデータに優れ,資源効率に欠ける。
本稿では,Resource-Efficient Prompting(REP)を提案する。
提案手法は高速なプロンプト選択を用いて、注意深く設定されたモデルを用いて入力データを洗練する。
論文 参考訳(メタデータ) (2024-06-07T09:17:33Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - AutoLoRa: A Parameter-Free Automated Robust Fine-Tuning Framework [13.471022394534465]
Robust Fine-Tuning (RFT) は、ダウンストリームアプリケーションにおける対角的ロバスト性を得るための低コストな戦略である。
本稿では,特徴抽出器 (FE) による対向的目的と自然的目的の両方を最適化することで,異なる勾配方向を導出する既存の RFT の問題を明らかにする。
本稿では,RFT を LoRa 分岐による自然目標の最適化と FE による敵目標の2つの異なる成分に分解するローランク (LoRa) 分岐を提案する。
論文 参考訳(メタデータ) (2023-10-03T06:16:03Z) - Fine-tuning Strategies for Faster Inference using Speech Self-Supervised
Models: A Comparative Study [25.58608455210458]
自己教師付き学習(SSL)は、低リソース環境での音声認識(ASR)の性能を大幅に向上させた。
この記事では、SSLエンコーダに必要な計算量を削減するために、微調整中にデプロイされる可能性のあるさまざまなアプローチについて検討する。
論文 参考訳(メタデータ) (2023-03-12T19:52:34Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Layer Pruning on Demand with Intermediate CTC [50.509073206630994]
我々はコネクショニスト時間分類(CTC)に基づくASRの訓練と刈り取り方法を提案する。
本稿では,Transformer-CTCモデルをオンデマンドで様々な深さでプルーニングできることを示し,GPU上でのリアルタイム係数を0.005から0.002に改善した。
論文 参考訳(メタデータ) (2021-06-17T02:40:18Z) - SUOD: Accelerating Large-Scale Unsupervised Heterogeneous Outlier
Detection [63.253850875265115]
外乱検出(OD)は、一般的なサンプルから異常物体を識別するための機械学習(ML)タスクである。
そこで我々は,SUODと呼ばれるモジュール型加速度システムを提案する。
論文 参考訳(メタデータ) (2020-03-11T00:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。