論文の概要: Visual Implicit Autoregressive Modeling
- arxiv url: http://arxiv.org/abs/2605.01220v1
- Date: Sat, 02 May 2026 03:23:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.647466
- Title: Visual Implicit Autoregressive Modeling
- Title(参考訳): Visual Implicit Autoregressive Modeling
- Authors: Pengfei Jiang, Jixiang Luo, Luxi Lin, Zhaohong Huang, Xuelong Li,
- Abstract要約: 我々は、浅いプレ/ポストブロック間に暗黙の平衡層を埋め込んだ次世代の自己回帰生成器であるVisual Implicit Autoregressive Modeling (VIAR)を紹介する。
VIARはImageNet 256x256ベンチマークでFID 2.16とsFID 8.07を達成した。
スケール毎のノブを制御することで、VIARはピークメモリを19.24GBから8.53GBに削減し、スループットを2倍にする。
- 参考スコア(独自算出の注目度): 42.343328817507505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Autoregressive Modeling (VAR) based on next-scale prediction achieves strong generation quality, but their explicit deep stacks fix the amount of computation per scale and inflate memory at high resolutions. We introduce Visual Implicit Autoregressive Modeling (VIAR), a next-scale autoregressive generator that embeds an implicit equilibrium layer between shallow pre/post blocks. The implicit layer is trained with Jacobian-Free Backpropagation, yielding constant training memory, while inference exposes a per-scale iteration knob that enables compute control. On ImageNet 256x256 benchmark, VIAR attains FID 2.16, and sFID 8.07 with only 38.4% parameters of VAR, matching or surpassing strong AR baselines and remaining competitive with large diffusion models. By controlling the per-scale knob, VIAR can reduce peak memory from 19.24 GB to 8.53 GB and doubles throughput from 15.16 to 32.08 images/s on a single RTX 4090, without retraining. Ablations show that fewer steps are sufficient for fixed-point iterations to converge and that VIAR consistently dominates VAR across quality efficiency operating points. In zero shot in-painting and class-conditional editing, VIAR produces sharper details and smoother boundaries while preserving global structure, validating the benefits of implicit equilibria and per-scale compute control for practical, deployable visual generation.
- Abstract(参考訳): 次世代の予測に基づくビジュアル自己回帰モデリング(VAR)は、強力な生成品質を実現するが、その明示的な深層スタックは、スケール毎の計算量を補正し、高解像度でメモリをインフレーションする。
我々は、浅いプレ/ポストブロック間に暗黙の平衡層を埋め込んだ次世代の自己回帰生成器であるVisual Implicit Autoregressive Modeling (VIAR)を紹介する。
暗黙のレイヤはJacobian-Free Backpropagationでトレーニングされ、一定のトレーニングメモリが生成される一方、推論は計算制御を可能にするスケール毎のイテレーションノブを公開する。
ImageNet 256x256 ベンチマークでは、VIAR は VAR の38.4% のパラメータで FID 2.16 と sFID 8.07 を達成し、強力な AR ベースラインに適合または超え、大きな拡散モデルとの競合を維持している。
スケールあたりのノブを制御することで、VIARはピークメモリを19.24GBから8.53GBに減らし、1つのRTX 4090上でのスループットを15.16から32.08に倍増させる。
アブレーションは、固定点反復が収束するのに十分なステップが少ないことを示し、VIARは品質効率の操作点で常にVARを支配していることを示している。
ゼロショットインペインティングとクラス条件編集において、VIARはよりシャープな詳細とスムーズな境界を大域的な構造を維持しながら生成し、暗黙の平衡と実用的でデプロイ可能なビジュアル生成のための大規模計算制御の利点を検証した。
関連論文リスト
- VARestorer: One-Step VAR Distillation for Real-World Image Super-Resolution [76.19751531910039]
本稿では,事前学習したテキストから画像へのVARモデルを,ワンステップのISRモデルに変換するフレームワークであるVARestorerを提案する。
VARestorerは、DIV2Kデータセット上で72.32 MUSIQと0.7669 CLIPIQAで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-04-23T09:09:36Z) - Progressive Supernet Training for Efficient Visual Autoregressive Modeling [56.15415456746672]
本稿では,パラダイムとフルネットワークの両方の世代品質のフロンティアを突破するトレーニング戦略を提案する。
ImageNetの実験では、事前訓練されたVAR-d30、VARiant-d16、VARiant-d8と比べ、ほぼ同等の品質を実現している。
VARiant-d2は3.5倍のスピードアップと80%のメモリ削減を実現している。
論文 参考訳(メタデータ) (2025-11-20T16:59:24Z) - ARMOR: High-Performance Semi-Structured Pruning via Adaptive Matrix Factorization [99.96330641363396]
ARMOR: (Adaptive Representation with Matrix-factorization) は、新しい1ショットのポストトレーニングプルーニングアルゴリズムである。
ARMORは重量を直接刈る代わりに、各重量行列を2:4のスパースコアに分解する。
ARMORは、幅広いダウンストリームタスクとパープレキシティ評価において、最先端の2:4プルーニング手法よりも一貫して、はるかに優れています。
論文 参考訳(メタデータ) (2025-10-07T02:39:20Z) - DetailFlow: 1D Coarse-to-Fine Autoregressive Image Generation via Next-Detail Prediction [47.483590046908844]
本稿では,粗い1次元自己回帰(AR)画像生成法であるDetailFlowを提案する。
DetailFlowは、段階的に劣化したイメージで管理される解像度対応トークンシーケンスを学習することにより、グローバルな構造から生成プロセスを開始することができる。
提案手法は,従来の手法よりもはるかに少ないトークンで高品質な画像合成を実現する。
論文 参考訳(メタデータ) (2025-05-27T17:45:21Z) - FastVAR: Linear Visual Autoregressive Modeling via Cached Token Pruning [66.5214586624095]
既存のVisual Autoregressive (VAR)パラダイムは、各スケールステップでトークンマップ全体を処理し、複雑性と実行時のスケーリングを画像の解像度で劇的に向上させる。
VARを用いた効率的な解像度スケーリングのための訓練後高速化手法であるFastmoreを提案する。
実験によると、FastmoreはFlashAttention-accelerated VARをさらに2.7$times$でスピードアップでき、パフォーマンスは1%低下した。
論文 参考訳(メタデータ) (2025-03-30T08:51:19Z) - Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient [52.96232442322824]
CoDe(Collaborative Decoding)は、Visual Auto-Regressive (VAR)フレームワーク用に設計された、新しい効率的なデコーディング戦略である。
CoDeは、大規模でのパラメータ要求の大幅な削減と、異なるスケールでの排他的生成パターンという、2つの重要な観察に乗じている。
CoDeは1.7倍のスピードアップを実現し、メモリ使用量を約50%削減し、画像品質を1.95から1.98に改善した。
論文 参考訳(メタデータ) (2024-11-26T15:13:15Z) - M-VAR: Decoupled Scale-wise Autoregressive Modeling for High-Quality Image Generation [39.97174784206976]
このスケールワイド自己回帰フレームワークは,テキストイントラスケールモデリングに効果的に分離可能であることを示す。
計算オーバーヘッドを大幅に削減するために,Mambaのような線形複雑度機構を適用した。
実験により,本手法は画像品質と生成速度の両方で既存モデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-11-15T18:54:42Z) - Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction [33.57820997288788]
画像上の自己回帰学習を粗い「次世代予測」として再定義する新世代パラダイムを提案する。
Visual AutoRegressive Modelingにより、GPTライクなARモデルは画像生成において拡散トランスフォーマーを超越する。
我々は、視覚生成と統合学習のためのAR/tokenモデルの探索を促進するために、すべてのモデルとコードをリリースした。
論文 参考訳(メタデータ) (2024-04-03T17:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。