論文の概要: End-to-End Autoregressive Image Generation with 1D Semantic Tokenizer
- arxiv url: http://arxiv.org/abs/2605.00503v2
- Date: Mon, 04 May 2026 10:19:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 14:09:07.099126
- Title: End-to-End Autoregressive Image Generation with 1D Semantic Tokenizer
- Title(参考訳): 1Dセマンティックトケナイザを用いたエンドツーエンド自己回帰画像生成
- Authors: Wenda Chu, Bingliang Zhang, Jiaqi Han, Yizhuo Li, Linjie Yang, Yisong Yue, Qiushan Guo,
- Abstract要約: 自己回帰画像モデリングは、イメージをコンパクトな潜在表現に圧縮する視覚トークン化器に依存している。
我々は、再構築と生成を共同で最適化するエンドツーエンドのトレーニングパイプラインを設計し、生成結果からトークン化装置への直接監督を可能にする。
我々の自己回帰生成モデルは、ImageNet 256x256 世代を指導することなく、最先端の FID スコア 1.48 を含む、強力な経験的結果が得られる。
- 参考スコア(独自算出の注目度): 43.94302725619101
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive image modeling relies on visual tokenizers to compress images into compact latent representations. We design an end-to-end training pipeline that jointly optimizes reconstruction and generation, enabling direct supervision from generation results to the tokenizer. This contrasts with prior two-stage approaches that train tokenizers and generative models separately. We further investigate leveraging vision foundation models to improve 1D tokenizers for autoregressive modeling. Our autoregressive generative model achieves strong empirical results, including a state-of-the-art FID score of 1.48 without guidance on ImageNet 256x256 generation.
- Abstract(参考訳): 自己回帰画像モデリングは、イメージをコンパクトな潜在表現に圧縮する視覚トークン化器に依存している。
我々は、再構築と生成を共同で最適化するエンドツーエンドのトレーニングパイプラインを設計し、生成結果からトークン化装置への直接監督を可能にする。
これは、トークン化と生成モデルを別々に訓練する以前の2段階のアプローチとは対照的である。
さらに,視覚基盤モデルを利用した自動回帰モデリングのための1次元トークン化器の改良について検討する。
我々の自己回帰生成モデルは、ImageNet 256x256 世代を指導することなく、最先端の FID スコア 1.48 を含む、強力な経験的結果が得られる。
関連論文リスト
- Advancing End-to-End Pixel Space Generative Modeling via Self-supervised Pre-training [23.632047555553324]
画素空間拡散および一貫性モデルのための新しい2段階トレーニングフレームワークを提案する。
トレーニングフレームワークは、ImageNetデータセット上で強力な経験的パフォーマンスを示す。
我々の知る限りでは、高解像度画像上での一貫性モデルのトレーニングを成功させたのはこれが初めてである。
論文 参考訳(メタデータ) (2025-10-14T14:41:16Z) - NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale [101.57871281101747]
NextStep-1は、テキストから画像生成タスクにおける自動回帰モデルの最先端のパフォーマンスを実現する。
本手法は画像編集において高い性能を示し,統一的アプローチのパワーと汎用性を強調した。
論文 参考訳(メタデータ) (2025-08-14T14:54:22Z) - Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation [52.261584726401686]
凍結した視覚基盤モデルの上に画像トークン化器を直接構築するための新しい方向を示す。
これらの設計に基づき,提案する画像トークン装置であるVFMTokは,画像再構成と生成品質の大幅な向上を実現している。
論文 参考訳(メタデータ) (2025-07-11T09:32:45Z) - Instella-T2I: Pushing the Limits of 1D Discrete Latent Space Image Generation [27.795313102716726]
画像のコンパクトな離散表現のための1次元バイナリ画像ラテントを提案する。
提案手法は, 1次元ラテントのコンパクト性を維持しながら, 高分解能の細部を保存できる。
我々のテキスト・ツー・イメージモデルは、拡散と自己回帰の両方で競合する性能を達成した最初のモデルです。
論文 参考訳(メタデータ) (2025-06-26T05:48:36Z) - Frequency Autoregressive Image Generation with Continuous Tokens [31.833852108014312]
本稿では、周波数プログレッシブ自己回帰(textbfFAR)パラダイムを導入し、連続トークン化器を用いてFARをインスタンス化する。
我々は、ImageNetデータセットの総合的な実験を通して、FARの有効性を実証する。
論文 参考訳(メタデータ) (2025-03-07T10:34:04Z) - ARFlow: Autoregressive Flow with Hybrid Linear Attention [48.707933347079894]
フローモデルは、徐々に現実的なイメージを生成するのに効果的である。
彼らは、生成プロセス中に長距離依存関係をキャプチャするのに苦労します。
本稿では,自動回帰モデリングをフローモデルに統合することを提案する。
論文 参考訳(メタデータ) (2025-01-27T14:33:27Z) - Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.57727062920458]
本稿では,非自己回帰型マスク画像モデリング(MIM)をSDXLのような最先端拡散モデルに匹敵するレベルまで高めるMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いる。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。
これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文 参考訳(メタデータ) (2024-06-10T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。