論文の概要: Next Patch Prediction for Autoregressive Visual Generation
- arxiv url: http://arxiv.org/abs/2412.15321v1
- Date: Thu, 19 Dec 2024 18:59:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:24:08.609271
- Title: Next Patch Prediction for Autoregressive Visual Generation
- Title(参考訳): 自己回帰視覚生成のための次のパッチ予測
- Authors: Yatian Pang, Peng Jin, Shuo Yang, Bin Lin, Bin Zhu, Zhenyu Tang, Liuhan Chen, Francis E. H. Tay, Ser-Nam Lim, Harry Yang, Li Yuan,
- Abstract要約: 自動回帰画像生成のためのNPP(Next Patch Prediction)パラダイムを提案する。
私たちのキーとなるアイデアは、画像トークンを高情報密度のパッチトークンにまとめて集約することです。
パッチトークンを短い入力シーケンスとして、自己回帰モデルを訓練して次のパッチを予測することにより、計算コストを大幅に削減する。
- 参考スコア(独自算出の注目度): 58.73461205369825
- License:
- Abstract: Autoregressive models, built based on the Next Token Prediction (NTP) paradigm, show great potential in developing a unified framework that integrates both language and vision tasks. In this work, we rethink the NTP for autoregressive image generation and propose a novel Next Patch Prediction (NPP) paradigm. Our key idea is to group and aggregate image tokens into patch tokens containing high information density. With patch tokens as a shorter input sequence, the autoregressive model is trained to predict the next patch, thereby significantly reducing the computational cost. We further propose a multi-scale coarse-to-fine patch grouping strategy that exploits the natural hierarchical property of image data. Experiments on a diverse range of models (100M-1.4B parameters) demonstrate that the next patch prediction paradigm could reduce the training cost to around 0.6 times while improving image generation quality by up to 1.0 FID score on the ImageNet benchmark. We highlight that our method retains the original autoregressive model architecture without introducing additional trainable parameters or specifically designing a custom image tokenizer, thus ensuring flexibility and seamless adaptation to various autoregressive models for visual generation.
- Abstract(参考訳): NTP(Next Token Prediction)パラダイムに基づいて構築された自動回帰モデルは、言語と視覚の両方を統合した統合フレームワークを開発する大きな可能性を示している。
本研究では,自動回帰画像生成のためのNTPを再考し,新しいNPPパラダイムを提案する。
私たちのキーとなるアイデアは、画像トークンを高情報密度のパッチトークンにまとめて集約することです。
パッチトークンを短い入力シーケンスとして、自己回帰モデルを訓練して次のパッチを予測することにより、計算コストを大幅に削減する。
さらに,画像データの自然な階層性を利用するマルチスケールの粗いパッチグループ化戦略を提案する。
多様なモデル(100M-1.4Bパラメータ)の実験では、次のパッチ予測パラダイムがトレーニングコストを約0.6倍に削減し、ImageNetベンチマークで最大1.0 FIDスコアで画像生成品質を向上させることが示されている。
トレーニング可能なパラメータを追加したり、カスタム画像トークン化器を設計したりすることなく、本来の自己回帰モデルアーキテクチャを保ち、視覚生成のための様々な自己回帰モデルへの柔軟性とシームレスな適応を保証する。
関連論文リスト
- Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective [52.778766190479374]
遅延ベース画像生成モデルは、画像生成タスクにおいて顕著な成功を収めた。
同じ遅延空間を共有するにもかかわらず、自己回帰モデルは画像生成において LDM や MIM よりもかなり遅れている。
本稿では,画像生成モデルのための遅延空間を安定化する,単純だが効果的な離散画像トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T12:13:17Z) - Accelerating Auto-regressive Text-to-Image Generation with Training-free Speculative Jacobi Decoding [60.188309982690335]
本稿では,自動回帰テキスト・画像生成を高速化するために,訓練不要な確率的並列デコーディングアルゴリズムであるSpeculative Jacobi Decoding (SJD)を提案する。
確率収束基準を導入することにより、サンプリングベースのトークン復号におけるランダム性を維持しつつ、自動回帰テキスト・画像生成の推論を高速化する。
論文 参考訳(メタデータ) (2024-10-02T16:05:27Z) - Multi-Modal Parameter-Efficient Fine-tuning via Graph Neural Network [2.12696199609647]
本稿では,グラフネットワークに基づくマルチモーダルパラメータ効率の微調整手法を提案する。
提案したモデルでは,OxfordPets,Flowers102,Food101の各データセットでそれぞれ4.45%,2.92%,0.23%の改善が達成されている。
論文 参考訳(メタデータ) (2024-08-01T05:24:20Z) - Emu: Enhancing Image Generation Models Using Photogenic Needles in a
Haystack [75.00066365801993]
Webスケールの画像-テキストペアによるテキスト-画像モデルのトレーニングにより、テキストから幅広い視覚概念を生成することができる。
これらの事前訓練されたモデルは、高度に美的な画像を生成することに関して、しばしば課題に直面します。
本稿では,高度に視覚的に魅力的な画像のみを生成するために,事前学習されたモデルを誘導する品質チューニングを提案する。
論文 参考訳(メタデータ) (2023-09-27T17:30:19Z) - Query-Efficient Decision-based Black-Box Patch Attack [36.043297146652414]
本稿では,クエリ効率の高い決定ベースのパッチアタックに対して,DevoPatchという微分進化アルゴリズムを提案する。
DevoPatchは、パッチ領域とアタック成功率の点で、最先端のブラックボックスパッチ攻撃を上回っている。
本稿では,ViTの脆弱性評価と画像分類を,初めて決定ベースのパッチアタック設定で実施する。
論文 参考訳(メタデータ) (2023-07-02T05:15:43Z) - Memory Efficient Diffusion Probabilistic Models via Patch-based
Generation [11.749564892273828]
拡散確率モデルは高品質で多様な画像を生成することに成功している。
入力と出力が高解像度の画像である従来のモデルは、過剰なメモリ要求に悩まされている。
本稿では,パッチ・バイ・パッチ・ベースで画像を生成する拡散確率モデルに対するパッチベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-04-14T12:20:18Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - Corrupted Image Modeling for Self-Supervised Visual Pre-Training [103.99311611776697]
自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。
CIMは、小さなトレーニング可能なBEiTを備えた補助発電機を使用して、人工マスクトークンを使用する代わりに入力イメージを破損させる。
事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。
論文 参考訳(メタデータ) (2022-02-07T17:59:04Z) - Evolving Image Compositions for Feature Representation Learning [22.22790506995431]
PatchMixは、グリッドのようなパターンで一対のイメージからパッチを合成することで、新しいサンプルを作成するデータ拡張手法である。
PatchMixを使用したImageNetでトレーニングされたResNet-50モデルは、幅広いベンチマークで優れた転送学習能力を示している。
論文 参考訳(メタデータ) (2021-06-16T17:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。