論文の概要: FlexVAR: Flexible Visual Autoregressive Modeling without Residual Prediction
- arxiv url: http://arxiv.org/abs/2502.20313v1
- Date: Thu, 27 Feb 2025 17:39:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:57:13.695468
- Title: FlexVAR: Flexible Visual Autoregressive Modeling without Residual Prediction
- Title(参考訳): FlexVAR: 残差予測なしでフレキシブルなビジュアル自動回帰モデリング
- Authors: Siyu Jiao, Gengwei Zhang, Yinlong Qian, Jiancheng Huang, Yao Zhao, Humphrey Shi, Lin Ma, Yunchao Wei, Zequn Jie,
- Abstract要約: この研究は、視覚自己回帰モデリングにおける残差予測パラダイムに挑戦する。
新しいフレキシブルなVisual AutoRegressiveイメージ生成パラダイムを提供する。
このシンプルで直感的なアプローチは、視覚分布を素早く学習し、生成プロセスをより柔軟で適応可能にします。
- 参考スコア(独自算出の注目度): 91.09318592542509
- License:
- Abstract: This work challenges the residual prediction paradigm in visual autoregressive modeling and presents FlexVAR, a new Flexible Visual AutoRegressive image generation paradigm. FlexVAR facilitates autoregressive learning with ground-truth prediction, enabling each step to independently produce plausible images. This simple, intuitive approach swiftly learns visual distributions and makes the generation process more flexible and adaptable. Trained solely on low-resolution images ($\leq$ 256px), FlexVAR can: (1) Generate images of various resolutions and aspect ratios, even exceeding the resolution of the training images. (2) Support various image-to-image tasks, including image refinement, in/out-painting, and image expansion. (3) Adapt to various autoregressive steps, allowing for faster inference with fewer steps or enhancing image quality with more steps. Our 1.0B model outperforms its VAR counterpart on the ImageNet 256$\times$256 benchmark. Moreover, when zero-shot transfer the image generation process with 13 steps, the performance further improves to 2.08 FID, outperforming state-of-the-art autoregressive models AiM/VAR by 0.25/0.28 FID and popular diffusion models LDM/DiT by 1.52/0.19 FID, respectively. When transferring our 1.0B model to the ImageNet 512$\times$512 benchmark in a zero-shot manner, FlexVAR achieves competitive results compared to the VAR 2.3B model, which is a fully supervised model trained at 512$\times$512 resolution.
- Abstract(参考訳): この研究は、視覚自己回帰モデリングにおける残差予測パラダイムに挑戦し、新しいフレキシブルビジュアル自己回帰画像生成パラダイムであるFlexVARを提示する。
FlexVARは、地平線予測による自己回帰学習を容易にし、各ステップが独立して可視画像を生成することができる。
このシンプルで直感的なアプローチは、視覚分布を素早く学習し、生成プロセスをより柔軟で適応可能にします。
FlexVARは、低解像度の画像(256px$\leq$)のみをトレーニングすることで、(1) 様々な解像度とアスペクト比の画像を生成し、トレーニングイメージの解像度を超えます。
2)画像の精細化,イン/アウト・ペインティング,画像拡張など,さまざまなイメージ・ツー・イメージタスクをサポートする。
(3) 様々な自己回帰ステップに適応し、より少ないステップで高速な推論が可能か、より多くのステップで画質を向上させることができる。
私たちの1.0Bモデルは、ImageNet 256$\times$256ベンチマークでVARよりも優れています。
さらに、画像生成工程を13ステップでゼロショット転送すると、その性能が2.08 FIDに向上し、最先端の自己回帰モデルAiM/VARが0.15/0.28 FID、人気の拡散モデルLDM/DiTが1.22/0.19 FIDに向上する。
1.0BモデルをImageNet 512$\times$512ベンチマークにゼロショットで転送すると、FlexVARは512$\times$512解像度でトレーニングされた完全な教師付きモデルであるVAR 2.3Bモデルと比較して、競合的な結果が得られる。
関連論文リスト
- SoftVQ-VAE: Efficient 1-Dimensional Continuous Tokenizer [45.720721058671856]
SoftVQ-VAEは、ソフトカテゴリ後部を利用して複数のコードワードを各潜在トークンに集約する連続画像トークンである。
提案手法は,32または64個の1次元トークンを用いて256x256および512x512画像を圧縮する。
興味深いことに、SoftVQ-VAEは256x256画像を生成するために最大18倍の推論スループットを向上し、512x512画像に対して55倍である。
論文 参考訳(メタデータ) (2024-12-14T20:29:29Z) - M-VAR: Decoupled Scale-wise Autoregressive Modeling for High-Quality Image Generation [39.97174784206976]
このスケールワイド自己回帰フレームワークは,テキストイントラスケールモデリングに効果的に分離可能であることを示す。
計算オーバーヘッドを大幅に削減するために,Mambaのような線形複雑度機構を適用した。
実験により,本手法は画像品質と生成速度の両方で既存モデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-11-15T18:54:42Z) - Randomized Autoregressive Visual Generation [26.195148077398223]
本稿では,視覚生成のためのランダム化自己回帰モデリング(RAR)を提案する。
RARは、言語モデリングフレームワークとの完全な互換性を維持しながら、画像生成タスクに最先端のパフォーマンスを新たに設定する。
ImageNet-256ベンチマークでは、RARはFIDスコアが1.48に達し、最先端の自己回帰画像生成装置に勝るだけでなく、拡散ベースおよびマスク付きトランスフォーマーベースの手法よりも優れている。
論文 参考訳(メタデータ) (2024-11-01T17:59:58Z) - Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。
これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文 参考訳(メタデータ) (2024-06-10T17:59:52Z) - SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions [5.100085108873068]
SDXS-512 と SDXS-1024 の2つのモデルを示し,1つのGPU上で約100 FPS (SD v1.5 より30倍速い) と30 FPS (SDXLより60倍速い) の推論速度を実現する。
我々のトレーニングアプローチは、画像条件付き制御に有望な応用を提供し、画像間の効率的な翻訳を容易にする。
論文 参考訳(メタデータ) (2024-03-25T11:16:23Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - Emage: Non-Autoregressive Text-to-Image Generation [63.347052548210236]
非自己回帰的テキスト画像モデルは、効率的に数百の画像トークンを並列に生成する。
346Mパラメータのモデルでは、256$times$256の画像を1つのV100 GPU上で約1秒生成する。
論文 参考訳(メタデータ) (2023-12-22T10:01:54Z) - Consistency Models [89.68380014789861]
ノイズを直接データにマッピングすることで,高品質なサンプルを生成する新しいモデル群を提案する。
設計によって高速なワンステップ生成をサポートしながら、マルチステップサンプリングによって、サンプル品質の計算を交換することができる。
イメージインペイント、カラー化、超高解像度といったゼロショットデータ編集も、明示的なトレーニングを必要とせずサポートしている。
論文 参考訳(メタデータ) (2023-03-02T18:30:16Z) - Vector-quantized Image Modeling with Improved VQGAN [93.8443646643864]
本稿では,自動回帰的に画像トークンを予測するためにトランスフォーマーを事前訓練するベクトル量子化画像モデリング手法を提案する。
まず,バニラVQGANに対して,アーキテクチャからコードブック学習までの複数の改良を提案する。
ImageNetで256x256解像度でトレーニングすると、175.1のインセプションスコア(IS)と4.17のFrechet Inception Distance(FID)を達成する。
論文 参考訳(メタデータ) (2021-10-09T18:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。