論文の概要: TensorAR: Refinement is All You Need in Autoregressive Image Generation
- arxiv url: http://arxiv.org/abs/2505.16324v1
- Date: Thu, 22 May 2025 07:27:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.118271
- Title: TensorAR: Refinement is All You Need in Autoregressive Image Generation
- Title(参考訳): TensorAR:リファインメントは自動回帰画像生成に必要なもの
- Authors: Cheng Cheng, Lin Song, Yicheng Xiao, Yuxin Chen, Xuchong Zhang, Hongbin Sun, Ying Shan,
- Abstract要約: Autoregressive (AR)イメージジェネレータは、因果シーケンス内の離散画像トークンを予測することによって、画像生成に言語モデルフレンドリなアプローチを提供する。
拡散モデルとは異なり、ARモデルは以前の予測を洗練させるメカニズムがなく、生成品質を制限している。
本稿では,次世代の予測から次世代の予測へ変換する新たなARパラダイムを提案する。
- 参考スコア(独自算出の注目度): 45.38495724606076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive (AR) image generators offer a language-model-friendly approach to image generation by predicting discrete image tokens in a causal sequence. However, unlike diffusion models, AR models lack a mechanism to refine previous predictions, limiting their generation quality. In this paper, we introduce TensorAR, a new AR paradigm that reformulates image generation from next-token prediction to next-tensor prediction. By generating overlapping windows of image patches (tensors) in a sliding fashion, TensorAR enables iterative refinement of previously generated content. To prevent information leakage during training, we propose a discrete tensor noising scheme, which perturbs input tokens via codebook-indexed noise. TensorAR is implemented as a plug-and-play module compatible with existing AR models. Extensive experiments on LlamaGEN, Open-MAGVIT2, and RAR demonstrate that TensorAR significantly improves the generation performance of autoregressive models.
- Abstract(参考訳): Autoregressive (AR)イメージジェネレータは、因果シーケンス内の離散画像トークンを予測することによって、画像生成に言語モデルフレンドリなアプローチを提供する。
しかし、拡散モデルとは異なり、ARモデルは以前の予測を洗練させるメカニズムがなく、生成品質を制限している。
本稿では,新たなARパラダイムであるTensorARを紹介する。
画像パッチ(テンソル)の重なり合うウィンドウをスライド状に生成することにより、TensorARは、以前に生成されたコンテンツの反復的な洗練を可能にする。
トレーニング中の情報漏洩を防止するため,コードブックのインデックス付きノイズによって入力トークンを摂動する離散テンソル雑音発生方式を提案する。
TensorARは既存のARモデルと互換性のあるプラグイン・アンド・プレイモジュールとして実装されている。
LlamaGEN、Open-MAGVIT2、RARの大規模な実験により、TensorARは自己回帰モデルの生成性能を大幅に改善することが示された。
関連論文リスト
- Revealing the Implicit Noise-based Imprint of Generative Models [71.94916898756684]
本稿では,検出タスクにノイズに基づくモデル固有インプリントを利用する新しいフレームワークを提案する。
様々な生成モデルからのインプリントを集約することにより、将来のモデルのインプリントを外挿してトレーニングデータを拡張することができる。
提案手法は,GenImage,Synthbuster,Chameleonの3つの公開ベンチマークにおいて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-03-12T12:04:53Z) - Autoregressive Video Generation without Vector Quantization [90.87907377618747]
本研究では,時間フレーム毎の予測の非量子化自己回帰モデルとしてビデオ生成問題を再構成する。
提案手法では,ベクトル量子化のない新しい自己回帰モデルであるNOVAを訓練する。
以上の結果から,NOVAはデータ効率,推論速度,視覚的忠実度,映像流速において,従来の自己回帰ビデオモデルよりもはるかに小さいモデルキャパシティを有することがわかった。
論文 参考訳(メタデータ) (2024-12-18T18:59:53Z) - RandAR: Decoder-only Autoregressive Visual Generation in Random Orders [54.49937384788739]
RandARはデコーダのみの視覚的自己回帰(AR)モデルで、任意のトークン順序で画像を生成することができる。
我々の設計では、各画像トークンが予測される前に「配置命令トークン」を挿入することで、ランダムな順序付けを可能にする。
RandARはゼロショットでインペイント、アウトペイント、解像度推論をサポートする。
論文 参考訳(メタデータ) (2024-12-02T18:59:53Z) - Randomized Autoregressive Visual Generation [26.195148077398223]
本稿では,視覚生成のためのランダム化自己回帰モデリング(RAR)を提案する。
RARは、言語モデリングフレームワークとの完全な互換性を維持しながら、画像生成タスクに最先端のパフォーマンスを新たに設定する。
ImageNet-256ベンチマークでは、RARはFIDスコアが1.48に達し、最先端の自己回帰画像生成装置に勝るだけでなく、拡散ベースおよびマスク付きトランスフォーマーベースの手法よりも優れている。
論文 参考訳(メタデータ) (2024-11-01T17:59:58Z) - LANTERN: Accelerating Visual Autoregressive Models with Relaxed Speculative Decoding [30.630803933771865]
実験により,提案手法が投機的復号化よりも大幅に高速化されたことを示す。
LANTERNは、greedyデコーディングやランダムサンプリングと比較して、$mathbf1.75times$と$mathbf1.82times$のスピードアップを増大させる。
論文 参考訳(メタデータ) (2024-10-04T12:21:03Z) - Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction [33.57820997288788]
画像上の自己回帰学習を粗い「次世代予測」として再定義する新世代パラダイムを提案する。
Visual AutoRegressive Modelingにより、GPTライクなARモデルは画像生成において拡散トランスフォーマーを超越する。
我々は、視覚生成と統合学習のためのAR/tokenモデルの探索を促進するために、すべてのモデルとコードをリリースした。
論文 参考訳(メタデータ) (2024-04-03T17:59:53Z) - NP-DRAW: A Non-Parametric Structured Latent Variable Modelfor Image
Generation [139.8037697822064]
NP-DRAWと呼ばれる画像生成のための非パラメトリック構造化潜在変数モデルを提案する。
後続のキャンバスをパーツ単位で順次描画し、それをキャンバスからデコードする。
論文 参考訳(メタデータ) (2021-06-25T05:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。