論文の概要: StepVAR: Structure-Texture Guided Pruning for Visual Autoregressive Models
- arxiv url: http://arxiv.org/abs/2603.01757v1
- Date: Mon, 02 Mar 2026 11:35:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.842322
- Title: StepVAR: Structure-Texture Guided Pruning for Visual Autoregressive Models
- Title(参考訳): StepVAR: 視覚的自己回帰モデルのための構造テクスチャガイドプルーニング
- Authors: Keli Liu, Zhendong Wang, Wengang Zhou, Houqiang Li,
- Abstract要約: 本稿では,Visual AutoRegressive モデルのためのトレーニングフリートークン解析フレームワークを提案する。
我々は局所的なテクスチャの詳細を捉えるために軽量なハイパスフィルタを使用し、グローバルな構造情報を保存するために主成分分析(PCA)を活用している。
スパーストークンの下で有効な次世代の予測を維持するために,近接した特徴伝達戦略を導入する。
- 参考スコア(独自算出の注目度): 98.72926158261937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual AutoRegressive (VAR) models based on next-scale prediction enable efficient hierarchical generation, yet the inference cost grows quadratically at high resolutions. We observe that the computationally intensive later scales predominantly refine high-frequency textures and exhibit substantial spatial redundancy, in contrast to earlier scales that determine the global structural layout. Existing pruning methods primarily focus on high-frequency detection for token selection, often overlooking structural coherence and consequently degrading global semantics. To address this limitation, we propose StepVAR, a training-free token pruning framework that accelerates VAR inference by jointly considering structural and textural importance. Specifically, we employ a lightweight high-pass filter to capture local texture details, while leveraging Principal Component Analysis (PCA) to preserve global structural information. This dual-criterion design enables the model to retain tokens critical for both fine-grained fidelity and overall composition. To maintain valid next-scale prediction under sparse tokens, we further introduce a nearest neighbor feature propagation strategy to reconstruct dense feature maps from pruned representations. Extensive experiments on state-of-the-art text-to-image and text-to-video VAR models demonstrate that StepVAR achieves substantial inference speedups while maintaining generation quality. Quantitative and qualitative evaluations consistently show that our method outperforms existing acceleration approaches, validating its effectiveness and general applicability across diverse VAR architectures.
- Abstract(参考訳): 次世代の予測に基づくビジュアルオートレグレッシブ(VAR)モデルは効率的な階層生成を実現するが、推論コストは高解像度で2次的に増加する。
計算集約的な後続のスケールは、大域的な構造的レイアウトを決定する以前のスケールとは対照的に、主に高周波テクスチャを洗練し、空間的冗長性を示す。
既存のプルーニング法は主にトークン選択のための高周波検出に焦点を当てており、しばしば構造的コヒーレンスを見落とし、結果としてグローバルセマンティクスを劣化させる。
この制限に対処するため,VAR推論を高速化し,構造的およびテクスチャ的重要性を共同で考慮した,トレーニングフリーなトークンプレーニングフレームワークであるStepVARを提案する。
具体的には、局所的なテクスチャの詳細を捉えるために軽量なハイパスフィルタを使用し、グローバルな構造情報を保存するために主成分分析(PCA)を活用している。
この二重基準設計により、モデルは細粒度と全体構成の両方に重要なトークンを保持することができる。
スパーストークンの下で有効な次世代の予測を維持するため,より近い特徴伝搬戦略を導入し,より密集した特徴写像をプルーンド表現から再構築する。
最先端のテキスト・ツー・イメージおよびビデオVARモデルに関する大規模な実験により、StepVARは生成品質を維持しながら、かなりの推論スピードアップを達成することが示された。
定量的および定性的な評価は,本手法が既存の加速手法よりも優れており,その有効性と汎用性は多様なVARアーキテクチャで検証可能であることを一貫して示している。
関連論文リスト
- Beyond the Flat Sequence: Hierarchical and Preference-Aware Generative Recommendations [35.58864660038236]
我々はHPGR(Hierarchical and Preference-aware Generative Recommender)という新しいフレームワークを提案する。
まず、構造化を意識した事前学習段階において、セッションベースのMasked Item Modelingの目的を用いて、階層的にインフォームドされ、セマンティックにリッチなアイテム表現空間を学ぶ。
第二に、プライオリティ対応の微調整ステージは、これらの強力な表現を活用して、Preference-Guided Sparse Attentionメカニズムを実装する。
論文 参考訳(メタデータ) (2026-03-01T08:15:34Z) - ToProVAR: Efficient Visual Autoregressive Modeling via Tri-Dimensional Entropy-Aware Semantic Analysis and Sparsity Optimization [13.916180996567128]
Visual Autoregressive(VAR)モデルは生成品質を向上させるが、後期では重要な効率ボトルネックに直面している。
本稿では,従来のアプローチと根本的に異なるVARモデルの新たな最適化フレームワークを提案する。
提案手法は, セマンティックな忠実さと細部を著しく保ちながら, 生成プロセスの積極的な加速を実現する。
論文 参考訳(メタデータ) (2026-02-26T12:36:56Z) - SparseWorld-TC: Trajectory-Conditioned Sparse Occupancy World Model [27.54931639768958]
本稿では, これからの3Dシーン占有状況の軌跡条件予測のための新しいアーキテクチャを提案する。
GPTやVGGTのような基本的な視覚や言語モデルにおける注意に基づくトランスフォーマーアーキテクチャにインスパイアされた我々は、中間的な鳥の視線(BEV)投影と、その明示的な幾何学的先行をバイパスする疎密な占有表現を採用した。
離散トークン化の有限容量制約とBEV表現の構造的制約の両方を回避し、1-3秒の占有予測のためのnuScenesベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-11-27T02:48:45Z) - HiCoGen: Hierarchical Compositional Text-to-Image Generation in Diffusion Models via Reinforcement Learning [66.99487505369254]
HiCoGenは、新しいChain of Synthesisパラダイムに基づいて構築されている。
複雑なプロンプトを最小の意味単位に分解する。
その後、これらのユニットを反復的に合成し、各ステップで生成された画像が次に重要な視覚的コンテキストを提供する。
実験により,提案手法は概念カバレッジと構成精度の両方において,既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-11-25T06:24:25Z) - IAR2: Improving Autoregressive Visual Generation with Semantic-Detail Associated Token Prediction [77.06211178777939]
IAR2は、階層的なセマンティックディーテール合成プロセスを可能にする高度な自己回帰フレームワークである。
我々は、IAR2が自動回帰画像生成のための新しい最先端技術を設定し、ImageNet上で1.50のFIDを達成することを示す。
論文 参考訳(メタデータ) (2025-10-08T12:08:21Z) - Towards Efficient General Feature Prediction in Masked Skeleton Modeling [59.46799426434277]
マスクスケルトンモデリングのための新しい汎用特徴予測フレームワーク(GFP)を提案する。
我々の重要な革新は、局所的な動きパターンからグローバルな意味表現にまたがる、従来の低レベルな再構築を高レベルな特徴予測に置き換えることです。
論文 参考訳(メタデータ) (2025-09-03T18:05:02Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Visual Autoregressive Modeling for Image Super-Resolution [14.935662351654601]
次世代の予測モデルとして, ISRフレームワークの視覚的自己回帰モデルを提案する。
大規模データを収集し、ロバストな生成先行情報を得るためのトレーニングプロセスを設計する。
論文 参考訳(メタデータ) (2025-01-31T09:53:47Z) - Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。
我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文 参考訳(メタデータ) (2020-01-23T02:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。