論文の概要: Next Patch Prediction for Autoregressive Visual Generation
- arxiv url: http://arxiv.org/abs/2412.15321v3
- Date: Wed, 19 Mar 2025 06:16:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:20:07.564729
- Title: Next Patch Prediction for Autoregressive Visual Generation
- Title(参考訳): 自己回帰視覚生成のための次のパッチ予測
- Authors: Yatian Pang, Peng Jin, Shuo Yang, Bin Lin, Bin Zhu, Zhenyu Tang, Liuhan Chen, Francis E. H. Tay, Ser-Nam Lim, Harry Yang, Li Yuan,
- Abstract要約: 我々はNext Token Prediction(NTP)パラダイムを新しいNext Patch Prediction(NPP)パラダイムに拡張する。
私たちのキーとなるアイデアは、画像トークンを高い情報密度のパッチトークンにグループ化して集約することです。
NPPは、画像Net 256x256生成ベンチマークにおいて、画像生成品質を最大1.0 FIDスコアで向上させながら、トレーニングコストを約0.6倍に削減できることを示した。
- 参考スコア(独自算出の注目度): 58.73461205369825
- License:
- Abstract: Autoregressive models, built based on the Next Token Prediction (NTP) paradigm, show great potential in developing a unified framework that integrates both language and vision tasks. Pioneering works introduce NTP to autoregressive visual generation tasks. In this work, we rethink the NTP for autoregressive image generation and extend it to a novel Next Patch Prediction (NPP) paradigm. Our key idea is to group and aggregate image tokens into patch tokens with higher information density. By using patch tokens as a more compact input sequence, the autoregressive model is trained to predict the next patch, significantly reducing computational costs. To further exploit the natural hierarchical structure of image data, we propose a multi-scale coarse-to-fine patch grouping strategy. With this strategy, the training process begins with a large patch size and ends with vanilla NTP where the patch size is 1$\times$1, thus maintaining the original inference process without modifications. Extensive experiments across a diverse range of model sizes demonstrate that NPP could reduce the training cost to around 0.6 times while improving image generation quality by up to 1.0 FID score on the ImageNet 256x256 generation benchmark. Notably, our method retains the original autoregressive model architecture without introducing additional trainable parameters or specifically designing a custom image tokenizer, offering a flexible and plug-and-play solution for enhancing autoregressive visual generation.
- Abstract(参考訳): NTP(Next Token Prediction)パラダイムに基づいて構築された自動回帰モデルは、言語と視覚の両方を統合した統合フレームワークを開発する大きな可能性を示している。
パイオニアリングは自動回帰視覚生成タスクにNTPを導入している。
本研究では,自動回帰画像生成のためのNTPを再考し,NPP(Next Patch Prediction)パラダイムに拡張する。
私たちのキーとなるアイデアは、画像トークンを高い情報密度のパッチトークンにグループ化して集約することです。
パッチトークンをよりコンパクトな入力シーケンスとして使用することにより、自己回帰モデルは次のパッチを予測するために訓練され、計算コストを大幅に削減する。
画像データの自然な階層構造をさらに活用するために,マルチスケールの粗いパッチグループ化戦略を提案する。
この戦略では、トレーニングプロセスは、大きなパッチサイズから始まり、1$\times$1のバニラNTPで終わる。
様々なモデルサイズにわたる大規模な実験により、NPPはトレーニングコストを約0.6倍に削減し、ImageNet 256x256生成ベンチマークで画像生成品質を最大1.0 FIDスコアで改善することを示した。
特に,本手法では,トレーニング可能なパラメータを追加したり,カスタムイメージトークンを設計したりすることなく,独自の自己回帰モデルアーキテクチャを保ち,フレキシブルかつプラグアンドプレイで自動回帰ビジュアル生成を向上するソリューションを提供する。
関連論文リスト
- MGPATH: Vision-Language Model with Multi-Granular Prompt Learning for Few-Shot WSI Classification [19.29480118378639]
全スライド画像分類は、ギガピクセル画像サイズと限定アノテーションラベルによる課題を提示する。
本稿では,数ショットの病理分類に大規模な視覚言語モデルを適用するための素早い学習手法を提案する。
論文 参考訳(メタデータ) (2025-02-11T09:42:13Z) - Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More [34.12661784331014]
本稿では,パッチ方式による圧縮符号化のパラダイムによる情報損失について検討する。
我々は広範囲にわたるパッチサイズスケーリング実験を行い、パッチ化における興味深いスケーリング法則を興奮的に観察する。
副産物として、より小さいパッチでは、タスク固有のデコーダヘッドは、より密集した予測では重要でないことが分かる。
論文 参考訳(メタデータ) (2025-02-06T03:01:38Z) - Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective [52.778766190479374]
遅延ベース画像生成モデルは、画像生成タスクにおいて顕著な成功を収めた。
同じ遅延空間を共有するにもかかわらず、自己回帰モデルは画像生成において LDM や MIM よりもかなり遅れている。
本稿では,画像生成モデルのための遅延空間を安定化する,単純だが効果的な離散画像トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T12:13:17Z) - Accelerating Auto-regressive Text-to-Image Generation with Training-free Speculative Jacobi Decoding [60.188309982690335]
本稿では,自動回帰テキスト・画像生成を高速化するために,訓練不要な確率的並列デコーディングアルゴリズムであるSpeculative Jacobi Decoding (SJD)を提案する。
確率収束基準を導入することにより、サンプリングベースのトークン復号におけるランダム性を維持しつつ、自動回帰テキスト・画像生成の推論を高速化する。
論文 参考訳(メタデータ) (2024-10-02T16:05:27Z) - Emu: Enhancing Image Generation Models Using Photogenic Needles in a
Haystack [75.00066365801993]
Webスケールの画像-テキストペアによるテキスト-画像モデルのトレーニングにより、テキストから幅広い視覚概念を生成することができる。
これらの事前訓練されたモデルは、高度に美的な画像を生成することに関して、しばしば課題に直面します。
本稿では,高度に視覚的に魅力的な画像のみを生成するために,事前学習されたモデルを誘導する品質チューニングを提案する。
論文 参考訳(メタデータ) (2023-09-27T17:30:19Z) - Query-Efficient Decision-based Black-Box Patch Attack [36.043297146652414]
本稿では,クエリ効率の高い決定ベースのパッチアタックに対して,DevoPatchという微分進化アルゴリズムを提案する。
DevoPatchは、パッチ領域とアタック成功率の点で、最先端のブラックボックスパッチ攻撃を上回っている。
本稿では,ViTの脆弱性評価と画像分類を,初めて決定ベースのパッチアタック設定で実施する。
論文 参考訳(メタデータ) (2023-07-02T05:15:43Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - Corrupted Image Modeling for Self-Supervised Visual Pre-Training [103.99311611776697]
自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。
CIMは、小さなトレーニング可能なBEiTを備えた補助発電機を使用して、人工マスクトークンを使用する代わりに入力イメージを破損させる。
事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。
論文 参考訳(メタデータ) (2022-02-07T17:59:04Z) - Evolving Image Compositions for Feature Representation Learning [22.22790506995431]
PatchMixは、グリッドのようなパターンで一対のイメージからパッチを合成することで、新しいサンプルを作成するデータ拡張手法である。
PatchMixを使用したImageNetでトレーニングされたResNet-50モデルは、幅広いベンチマークで優れた転送学習能力を示している。
論文 参考訳(メタデータ) (2021-06-16T17:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。