Fugu-MT 論文翻訳(概要): Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

論文の概要: Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

arxiv url: http://arxiv.org/abs/2404.02905v1
Date: Wed, 3 Apr 2024 17:59:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 16:40:30.909980
Title: Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction
Title（参考訳）: Visual Autoregressive Modeling: 次世代予測によるスケーラブルな画像生成
Authors: Keyu Tian, Yi Jiang, Zehuan Yuan, Bingyue Peng, Liwei Wang,
Abstract要約: 画像上の自己回帰学習を粗い「次世代予測」として再定義する新世代パラダイムを提案する。 Visual AutoRegressive Modelingにより、ARモデルは画像生成において拡散トランスフォーマーを超越する。
参考スコア（独自算出の注目度）: 33.57820997288788
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: We present Visual AutoRegressive modeling (VAR), a new generation paradigm that redefines the autoregressive learning on images as coarse-to-fine "next-scale prediction" or "next-resolution prediction", diverging from the standard raster-scan "next-token prediction". This simple, intuitive methodology allows autoregressive (AR) transformers to learn visual distributions fast and generalize well: VAR, for the first time, makes AR models surpass diffusion transformers in image generation. On ImageNet 256x256 benchmark, VAR significantly improve AR baseline by improving Frechet inception distance (FID) from 18.65 to 1.80, inception score (IS) from 80.4 to 356.4, with around 20x faster inference speed. It is also empirically verified that VAR outperforms the Diffusion Transformer (DiT) in multiple dimensions including image quality, inference speed, data efficiency, and scalability. Scaling up VAR models exhibits clear power-law scaling laws similar to those observed in LLMs, with linear correlation coefficients near -0.998 as solid evidence. VAR further showcases zero-shot generalization ability in downstream tasks including image in-painting, out-painting, and editing. These results suggest VAR has initially emulated the two important properties of LLMs: Scaling Laws and zero-shot task generalization. We have released all models and codes to promote the exploration of AR/VAR models for visual generation and unified learning.
Abstract（参考訳）: 我々は,画像上の自己回帰学習を粗大な"next-scale prediction"や"next- resolution prediction"として再定義する,新しい世代パラダイムであるVisual AutoRegressive Modeling (VAR)を提案する。このシンプルで直感的な手法により、自動回帰変換器(AR)は視覚分布を高速に学習し、うまく一般化することができる。 ImageNet 256x256ベンチマークでは、VARはFrechet開始距離(FID)を18.65から1.80に改善し、インセプションスコア(IS)を80.4から356.4に改善し、推論速度を約20倍改善した。また、VARは画像品質、推論速度、データ効率、スケーラビリティなど、複数の次元において拡散変換器(DiT)より優れていることを実証的に検証した。 VARモデルのスケールアップは、LLMで見られるのと同様の明確なパワー則のスケーリング法則を示し、-0.998付近の線形相関係数を確かな証拠として示している。 VARはさらに、画像のインペインティング、アウトペインティング、編集など、下流タスクでゼロショットの一般化機能を示す。これらの結果は、当初VARがLLMの2つの重要な特性であるスケーリング法則とゼロショットタスク一般化をエミュレートしたことを示唆している。我々は、視覚生成と統合学習のためのAR/VARモデルの探索を促進するために、すべてのモデルとコードをリリースした。

関連論文リスト

Resurrect Mask AutoRegressive Modeling for Efficient and Scalable Image Generation [62.00800210379539]
Masked AutoRegressive (MAR)モデルは画像生成において顕著な進歩を遂げている。 MARモデルは、伝統的に標準的なARモデルに比べて性能が劣っている。本研究は、MARアーキテクチャを改良し、画像生成品質を改善する。
論文参考訳（メタデータ） (2025-07-17T12:02:38Z)
HMAR: Efficient Hierarchical Masked Auto-Regressive Image Generation [91.08481618973111]
Visual Auto-Regressive Modeling (VAR)は、自己回帰画像モデルと拡散モデルの間の速度と品質のギャップを埋めることに約束している。高速サンプリングで高品質な画像を生成するために階層型マスク付き自己回帰モデリング(HMAR)を導入する。 HMARはマルコフ過程として次のスケールの予測を再構成し、各解像度スケールの予測は直前のトークンにのみ条件付けされる。
論文参考訳（メタデータ） (2025-06-04T20:08:07Z)
TensorAR: Refinement is All You Need in Autoregressive Image Generation [45.38495724606076]
Autoregressive (AR)イメージジェネレータは、因果シーケンス内の離散画像トークンを予測することによって、画像生成に言語モデルフレンドリなアプローチを提供する。拡散モデルとは異なり、ARモデルは以前の予測を洗練させるメカニズムがなく、生成品質を制限している。本稿では,次世代の予測から次世代の予測へ変換する新たなARパラダイムを提案する。
論文参考訳（メタデータ） (2025-05-22T07:27:25Z)
Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。 GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文参考訳（メタデータ） (2025-04-24T17:59:56Z)
SimpleAR: Pushing the Frontier of Autoregressive Visual Generation through Pretraining, SFT, and RL [112.92522479863054]
この作業は、複雑な古風な修正を伴わない、バニラ自動回帰視覚生成フレームワークであるSimpleARを提示する。我々は,高忠実度1024×1024解像度画像を生成し,テキスト・ツー・イメージ・ベンチマークで競合する結果が得られることを示した。これらの発見を共有し、コードをオープンソース化することによって、自己回帰的な視覚生成の可能性を明らかにしたいと考えています。
論文参考訳（メタデータ） (2025-04-15T17:59:46Z)
FastVAR: Linear Visual Autoregressive Modeling via Cached Token Pruning [66.5214586624095]
既存のVisual Autoregressive (VAR)パラダイムは、各スケールステップでトークンマップ全体を処理し、複雑性と実行時のスケーリングを画像の解像度で劇的に向上させる。 VARを用いた効率的な解像度スケーリングのための訓練後高速化手法であるFastmoreを提案する。実験によると、FastmoreはFlashAttention-accelerated VARをさらに2.7$times$でスピードアップでき、パフォーマンスは1%低下した。
論文参考訳（メタデータ） (2025-03-30T08:51:19Z)
Beyond Next-Token: Next-X Prediction for Autoregressive Visual Generation [34.112157859384645]
自己回帰(AR)モデリングは、最先端の言語と視覚的生成モデルを支える。伝統的に、トークン'' は最小の予測単位として扱われ、しばしば言語における離散的なシンボルまたは視覚における量子化されたパッチとして扱われる。トークンの概念をエンティティXに拡張するフレームワークであるxARを提案する。
論文参考訳（メタデータ） (2025-02-27T18:59:08Z)
FlexVAR: Flexible Visual Autoregressive Modeling without Residual Prediction [91.09318592542509]
この研究は、視覚自己回帰モデリングにおける残差予測パラダイムに挑戦する。新しいフレキシブルなVisual AutoRegressiveイメージ生成パラダイムを提供する。このシンプルで直感的なアプローチは、視覚分布を素早く学習し、生成プロセスをより柔軟で適応可能にします。
論文参考訳（メタデータ） (2025-02-27T17:39:17Z)
FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching [34.112157859384645]
本稿では,合理化スケール設計を特徴とする次世代のスケール予測手法であるFlowARを紹介する。これにより、VARの複雑なマルチスケール残留トークン化器が不要になる。課題であるImageNet-256ベンチマークにおけるFlowARの有効性を検証する。
論文参考訳（メタデータ） (2024-12-19T18:59:31Z)
RandAR: Decoder-only Autoregressive Visual Generation in Random Orders [54.49937384788739]
RandARはデコーダのみの視覚的自己回帰(AR)モデルで、任意のトークン順序で画像を生成することができる。我々の設計では、各画像トークンが予測される前に「配置命令トークン」を挿入することで、ランダムな順序付けを可能にする。 RandARはゼロショットでインペイント、アウトペイント、解像度推論をサポートする。
論文参考訳（メタデータ） (2024-12-02T18:59:53Z)
M-VAR: Decoupled Scale-wise Autoregressive Modeling for High-Quality Image Generation [39.97174784206976]
このスケールワイド自己回帰フレームワークは,テキストイントラスケールモデリングに効果的に分離可能であることを示す。計算オーバーヘッドを大幅に削減するために,Mambaのような線形複雑度機構を適用した。実験により,本手法は画像品質と生成速度の両方で既存モデルより優れていることが示された。
論文参考訳（メタデータ） (2024-11-15T18:54:42Z)
Randomized Autoregressive Visual Generation [26.195148077398223]
本稿では,視覚生成のためのランダム化自己回帰モデリング(RAR)を提案する。 RARは、言語モデリングフレームワークとの完全な互換性を維持しながら、画像生成タスクに最先端のパフォーマンスを新たに設定する。 ImageNet-256ベンチマークでは、RARはFIDスコアが1.48に達し、最先端の自己回帰画像生成装置に勝るだけでなく、拡散ベースおよびマスク付きトランスフォーマーベースの手法よりも優れている。
論文参考訳（メタデータ） (2024-11-01T17:59:58Z)
Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation [74.15447383432262]
Open-MAGVIT2プロジェクトは、GoogleのMAGVIT-v2トークンのオープンソースレプリケーションを生成する。我々は、大規模なデータに基づいて事前訓練されたトークンーザを提供し、ゼロショットベンチマークでコスモスを著しく上回っている。我々は3億から1.5Bまでの自己回帰画像生成モデル群を作成した。
論文参考訳（メタデータ） (2024-09-06T17:14:53Z)
Scalable Autoregressive Image Generation with Mamba [23.027439743155192]
本稿では,マンバアーキテクチャに基づく自己回帰(AR)画像生成モデルであるAiMを紹介する。 Mamba(マンバ)は、線形時間による長周期モデリングに特有な性能を特徴とする、新しい状態空間モデルである。パラメータ数は128Mから1.3Bまで様々である。
論文参考訳（メタデータ） (2024-08-22T09:27:49Z)
Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文参考訳（メタデータ） (2024-06-10T17:59:52Z)
Sparse then Prune: Toward Efficient Vision Transformers [2.191505742658975]
Vision Transformerは自然言語処理におけるTransformerモデルの成功に触発されたディープラーニングモデルである。視力変換器にスパース正規化を適用すると、精度が0.12%向上する。スパース正規化を伴うモデルにプルーニングを適用すると、さらによい結果が得られる。
論文参考訳（メタデータ） (2023-07-22T05:43:33Z)
Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。出力トークンの数を正確に予測し、隠れた変数を抽出する。 10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文参考訳（メタデータ） (2022-06-16T17:24:14Z)
Vector-quantized Image Modeling with Improved VQGAN [93.8443646643864]
本稿では,自動回帰的に画像トークンを予測するためにトランスフォーマーを事前訓練するベクトル量子化画像モデリング手法を提案する。まず,バニラVQGANに対して,アーキテクチャからコードブック学習までの複数の改良を提案する。 ImageNetで256x256解像度でトレーニングすると、175.1のインセプションスコア(IS)と4.17のFrechet Inception Distance(FID)を達成する。
論文参考訳（メタデータ） (2021-10-09T18:36:00Z)
Fast-Slow Transformer for Visually Grounding Speech [15.68151998164009]
本稿では,Fast-Slow Transformer for Visually Grounding Speech(FST-VGS)を提案する。 FaST-VGSは、生音声波形と視覚画像の関係を学習するためのトランスフォーマーベースのモデルである。
論文参考訳（メタデータ） (2021-09-16T18:45:45Z)
Long-Short Transformer: Efficient Transformers for Language and Vision [97.2850205384295]
長短変換器(Long-Short Transformer, Transformer-LS)は、言語タスクと視覚タスクの両方に線形な複雑さを持つ長いシーケンスをモデリングするための効率的な自己アテンション機構である。遠距離相関をモデル化するためのダイナミックプロジェクションと、局所相関を微細に捉えるための短期的注意を組み込んだ、新しい長距離の注意を集約する。提案手法は,Long Range Arenaベンチマーク,自動回帰言語モデリング,イメージネット分類など,言語と視覚領域の複数のタスクにおける最先端モデルよりも優れている。
論文参考訳（メタデータ） (2021-07-05T18:00:14Z)
Scaling Vision Transformers [82.08465256393514]
本研究では,Vision Transformerがエラー率,データ,計算の関係をスケールし,特徴付ける方法について検討する。我々は20億のパラメータを持つViTモデルをトレーニングし、ImageNetの90.45%のトップ-1の精度で新たな最先端技術を実現する。このモデルは、例えば、ImageNetで84.86%のトップ-1の精度を達成し、1クラスにつき10のサンプルしか持たないような、数ショット学習でもうまく機能する。
論文参考訳（メタデータ） (2021-06-08T17:47:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。