論文の概要: Depth Adaptive Efficient Visual Autoregressive Modeling
- arxiv url: http://arxiv.org/abs/2604.17286v1
- Date: Sun, 19 Apr 2026 06:59:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.437178
- Title: Depth Adaptive Efficient Visual Autoregressive Modeling
- Title(参考訳): 深度適応型視覚自己回帰モデリング
- Authors: Chunliang Li, Tianze Cao, Sanyuan Zhao,
- Abstract要約: 視覚自己回帰(VAR)モデリングは、高解像度画像を生成する際に、各位置に対して非効率に固定された計算深度を適用する。
本稿では,トークン全体のプルーニングから,トークンごとの計算深度を適応的に割り当てるパラダイムシフトを提案する。
- 参考スコア(独自算出の注目度): 18.16894544431278
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visual Autoregressive (VAR) modeling inefficiently applies a fixed computational depth to each position when generating high-resolution images. While existing methods accelerate inference by pruning tokens using frequency maps, their binary hard-pruning approach is fundamentally limited and fails to improve quality even with better frequency estimation. Observing that VAR models possess significant depth redundancy, we propose a paradigm shift from pruning entire tokens to adaptively allocating per-token computational depth. To this end, we introduce DepthVAR, a training-free framework that dynamically allocates computation. It integrates an adaptive depth scheduler, which assigns computational depth via a cyclic rotated schedule for balanced, non-static refinement, with a dynamic inference process that translates these depths into layer-major masks, selectively applies transformer blocks, and blends the resulting codes to ensure each token's influence is proportional to its processing depth. Extensive experiments show that DepthVAR achieves 2.3$\times$-3.1$\times$ acceleration with minimal quality loss, offering a competitive compute-performance trade-off compared to existing hard-pruning approaches. Code is available at https://github.com/STOVAGtz/DepthVAR
- Abstract(参考訳): 視覚自己回帰(VAR)モデリングは、高解像度画像を生成する際に、各位置に対して非効率に固定された計算深度を適用する。
既存の手法は、周波数マップを用いてトークンをプルーニングすることで推論を加速するが、そのバイナリハードプルーニングアプローチは基本的に制限されており、周波数推定の精度が向上しても品質改善に失敗する。
VARモデルにはかなりの深度冗長性があることを観察し、トークン全体のプルーニングから、トーケン毎の計算深度を適応的に割り当てるパラダイムシフトを提案する。
この目的のために、動的に計算を割り当てるトレーニング不要のフレームワークであるDepthVARを紹介した。
適応的な深度スケジューラは、周期的に回転したスケジュールを通して計算深度を割り当て、バランスの取れた非静的な精細化を、これらの深度を層長マスに変換し、トランスフォーマーブロックを選択的に適用し、それぞれのトークンの影響がその処理深度に比例することを保証するために、結果の符号をブレンドする動的推論プロセスと統合する。
大規模な実験により、DepthVARは2.3$\times$-3.1$\times$Accelerationを最小品質の損失で達成し、既存のハードプルーニングアプローチと比較して競争力のある計算性能のトレードオフを提供することを示した。
コードはhttps://github.com/STOVAGtz/DepthVARで入手できる。
関連論文リスト
- TS-DP: Reinforcement Speculative Decoding For Temporal Adaptive Diffusion Policy Acceleration [64.32072516882947]
拡散ポリシーは、具体的制御が優れているが、高い推論遅延と計算コストに悩まされている。
時間認識強化に基づく投機的拡散政策(TS-DP)を提案する。
TS-DPは94%以上のドラフトで最大4.17倍高速な推論を実現し、推論周波数は25Hzに達した。
論文 参考訳(メタデータ) (2025-12-13T07:53:14Z) - Rethinking Autoregressive Models for Lossless Image Compression via Hierarchical Parallelism and Progressive Adaptation [75.58269386927076]
自己回帰(AR)モデルは、しばしば計算コストの禁止のために非現実的に除外される。
この研究は、階層的並列性とプログレッシブ適応に基づくフレームワークを導入して、このパラダイムを再考する。
各種データセット(自然,衛星,医療)の実験により,本手法が新たな最先端圧縮を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-14T06:27:58Z) - Proximal Algorithm Unrolling: Flexible and Efficient Reconstruction Networks for Single-Pixel Imaging [45.39911367007956]
ディープ・アンロールとプラグ・アンド・プレイのアプローチは、単画素イメージング(SPI)逆問題におけるデファクトとなっている。
本稿では,両クラスの解き手の強みを統合するという課題に対処する。
論文 参考訳(メタデータ) (2025-05-29T07:16:57Z) - High-Frequency Prior-Driven Adaptive Masking for Accelerating Image Super-Resolution [87.56382172827526]
高周波領域は再建に最も重要である。
本稿では,アクセラレーションのためのトレーニング不要適応マスキングモジュールを提案する。
本手法は,最先端モデルのFLOPを24~43%削減する。
論文 参考訳(メタデータ) (2025-05-11T13:18:03Z) - PatchRefiner V2: Fast and Lightweight Real-Domain High-Resolution Metric Depth Estimation [38.71875790942604]
PRV2はUnrealStereo4Kの精度と速度の両方で最先端の深さ推定手法より優れている。
また、CityScape、ScanNet++、KITTIといった現実世界のデータセットでは、奥行き境界線が改善されている。
論文 参考訳(メタデータ) (2025-01-02T07:41:27Z) - Variational Bayes image restoration with compressive autoencoders [6.689746581015932]
逆問題の正規化は、計算イメージングにおいて最重要となる。
本研究では,まず,最先端生成モデルの代わりに変分オートエンコーダを提案する。
第2の貢献として、変分推論内で潜時推定を行う変分ベイズ潜時推定(VBLE)アルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-11-29T15:49:31Z) - Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - FaDIV-Syn: Fast Depth-Independent View Synthesis [27.468361999226886]
高速深度に依存しないビュー合成法であるFaDIV-Synを紹介する。
我々の多視点アプローチは、ビュー合成法がしばしば深度推定段階によって制限される問題に対処する。
論文 参考訳(メタデータ) (2021-06-24T16:14:01Z) - Layer Pruning on Demand with Intermediate CTC [50.509073206630994]
我々はコネクショニスト時間分類(CTC)に基づくASRの訓練と刈り取り方法を提案する。
本稿では,Transformer-CTCモデルをオンデマンドで様々な深さでプルーニングできることを示し,GPU上でのリアルタイム係数を0.005から0.002に改善した。
論文 参考訳(メタデータ) (2021-06-17T02:40:18Z) - Faster Depth-Adaptive Transformers [71.20237659479703]
深さ適応型ニューラルネットワークは入力単語の硬さに応じて動的に深さを調整することができる。
従来の作業は一般的に、計算が各レイヤで続行するか停止するかを決定するために停止ユニットを構築する。
本稿では,停止ユニットを除去し,必要な深さを事前に推定し,より高速な深度適応モデルを生成する。
論文 参考訳(メタデータ) (2020-04-27T15:08:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。