論文の概要: Progressive Supernet Training for Efficient Visual Autoregressive Modeling
- arxiv url: http://arxiv.org/abs/2511.16546v1
- Date: Thu, 20 Nov 2025 16:59:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.738809
- Title: Progressive Supernet Training for Efficient Visual Autoregressive Modeling
- Title(参考訳): 効率的な視覚自己回帰モデリングのためのプログレッシブ・スーパーネットトレーニング
- Authors: Xiaoyue Chen, Yuling Shi, Kaiyuan Li, Huandong Wang, Yong Li, Xiaodong Gu, Xinlei Chen, Mingbao Lin,
- Abstract要約: 本稿では,パラダイムとフルネットワークの両方の世代品質のフロンティアを突破するトレーニング戦略を提案する。
ImageNetの実験では、事前訓練されたVAR-d30、VARiant-d16、VARiant-d8と比べ、ほぼ同等の品質を実現している。
VARiant-d2は3.5倍のスピードアップと80%のメモリ削減を実現している。
- 参考スコア(独自算出の注目度): 56.15415456746672
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Auto-Regressive (VAR) models significantly reduce inference steps through the "next-scale" prediction paradigm. However, progressive multi-scale generation incurs substantial memory overhead due to cumulative KV caching, limiting practical deployment. We observe a scale-depth asymmetric dependency in VAR: early scales exhibit extreme sensitivity to network depth, while later scales remain robust to depth reduction. Inspired by this, we propose VARiant: by equidistant sampling, we select multiple subnets ranging from 16 to 2 layers from the original 30-layer VAR-d30 network. Early scales are processed by the full network, while later scales utilize subnet. Subnet and the full network share weights, enabling flexible depth adjustment within a single model. However, weight sharing between subnet and the entire network can lead to optimization conflicts. To address this, we propose a progressive training strategy that breaks through the Pareto frontier of generation quality for both subnets and the full network under fixed-ratio training, achieving joint optimality. Experiments on ImageNet demonstrate that, compared to the pretrained VAR-d30 (FID 1.95), VARiant-d16 and VARiant-d8 achieve nearly equivalent quality (FID 2.05/2.12) while reducing memory consumption by 40-65%. VARiant-d2 achieves 3.5 times speedup and 80% memory reduction at moderate quality cost (FID 2.97). In terms of deployment, VARiant's single-model architecture supports zero-cost runtime depth switching and provides flexible deployment options from high quality to extreme efficiency, catering to diverse application scenarios.
- Abstract(参考訳): Visual Auto-Regressive (VAR)モデルは、"次世代の"予測パラダイムを通じて推論ステップを大幅に削減する。
しかし、プログレッシブなマルチスケール生成は累積的なKVキャッシングによってメモリオーバーヘッドが大幅に増加し、実際のデプロイメントが制限される。
初期のスケールはネットワーク深度に対して極端に敏感であり,その後のスケールは深度低減に頑健である。
等価サンプリングにより、元の30層VAR-d30ネットワークから16層から2層までの複数のサブネットを選択する。
初期のスケールは全ネットワークで処理され、後のスケールはサブネットを使用する。
Subnetと全ネットワークは重みを共有し、単一のモデル内でフレキシブルな深さ調整を可能にする。
しかし、サブネットとネットワーク全体の重み共有は、最適化の衝突を引き起こす可能性がある。
そこで本研究では,部分ネットと全ネットワークのパレート・フロンティアを突破し,協調的最適性を実現するプログレッシブ・トレーニング・ストラテジーを提案する。
ImageNetの実験では、事前訓練されたVAR-d30(FID 1.95)と比較して、VARiant-d16とVARiant-d8はほぼ同等の品質(FID 2.05/2.12)を達成し、メモリ消費を40-65%削減した。
VARiant-d2は3.5倍のスピードアップと80%のメモリ削減を実現している(FID 2.97)。
デプロイメントの面では、VARiantのシングルモデルアーキテクチャは、ゼロコストのランタイム深度切替をサポートし、高品質から極端に効率的なデプロイメントオプションを提供する。
関連論文リスト
- Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。
我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。
我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文 参考訳(メタデータ) (2024-04-02T17:58:49Z) - Lightweight and Progressively-Scalable Networks for Semantic
Segmentation [100.63114424262234]
マルチスケール学習フレームワークは,セマンティックセグメンテーションを向上する有効なモデルのクラスと見なされてきた。
本稿では,畳み込みブロックの設計と,複数スケールにわたる相互作用の仕方について,徹底的に解析する。
我々は,軽量で拡張性の高いネットワーク(LPS-Net)を考案した。
論文 参考訳(メタデータ) (2022-07-27T16:00:28Z) - Compact Multi-level Sparse Neural Networks with Input Independent
Dynamic Rerouting [33.35713740886292]
疎いディープニューラルネットワークは、モデルの複雑さとメモリ消費を大幅に減らすことができる。
現実の課題に直面する中で,複数のスパースレベルをサポートするスパースモデルをトレーニングすることを提案する。
このようにして、推論中に適切なスパーシティレベルを動的に選択でき、ストレージコストを最小のスパースサブモデルで抑えることができる。
論文 参考訳(メタデータ) (2021-12-21T01:35:51Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - Dynamic Slimmable Network [105.74546828182834]
ダイナミックスリム化システム「ダイナミックスリム化ネットワーク(DS-Net)」を開発。
ds-netは,提案するダブルヘッド動的ゲートによる動的推論機能を備えている。
静的圧縮法と最先端の静的および動的モデル圧縮法を一貫して上回っている。
論文 参考訳(メタデータ) (2021-03-24T15:25:20Z) - Fully Dynamic Inference with Deep Neural Networks [19.833242253397206]
Layer-Net(L-Net)とChannel-Net(C-Net)と呼ばれる2つのコンパクトネットワークは、どのレイヤやフィルタ/チャネルが冗長であるかをインスタンス毎に予測する。
CIFAR-10データセットでは、LC-Netは11.9$times$ less floating-point Operations (FLOPs) となり、他の動的推論手法と比較して最大3.3%精度が向上する。
ImageNetデータセットでは、LC-Netは最大1.4$times$ FLOPsを減らし、Top-1の精度は他の方法よりも4.6%高い。
論文 参考訳(メタデータ) (2020-07-29T23:17:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。