Fugu-MT 論文翻訳(概要): Next Patch Prediction for Autoregressive Visual Generation

論文の概要: Next Patch Prediction for Autoregressive Visual Generation

arxiv url: http://arxiv.org/abs/2412.15321v3
Date: Wed, 19 Mar 2025 06:16:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-20 17:45:40.73434
Title: Next Patch Prediction for Autoregressive Visual Generation
Title（参考訳）: 自己回帰視覚生成のための次のパッチ予測
Authors: Yatian Pang, Peng Jin, Shuo Yang, Bin Lin, Bin Zhu, Zhenyu Tang, Liuhan Chen, Francis E. H. Tay, Ser-Nam Lim, Harry Yang, Li Yuan,
Abstract要約: 我々はNext Token Prediction(NTP)パラダイムを新しいNext Patch Prediction(NPP)パラダイムに拡張する。私たちのキーとなるアイデアは、画像トークンを高い情報密度のパッチトークンにグループ化して集約することです。 NPPは、画像Net 256x256生成ベンチマークにおいて、画像生成品質を最大1.0 FIDスコアで向上させながら、トレーニングコストを約0.6倍に削減できることを示した。
参考スコア（独自算出の注目度）: 58.73461205369825
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Autoregressive models, built based on the Next Token Prediction (NTP) paradigm, show great potential in developing a unified framework that integrates both language and vision tasks. Pioneering works introduce NTP to autoregressive visual generation tasks. In this work, we rethink the NTP for autoregressive image generation and extend it to a novel Next Patch Prediction (NPP) paradigm. Our key idea is to group and aggregate image tokens into patch tokens with higher information density. By using patch tokens as a more compact input sequence, the autoregressive model is trained to predict the next patch, significantly reducing computational costs. To further exploit the natural hierarchical structure of image data, we propose a multi-scale coarse-to-fine patch grouping strategy. With this strategy, the training process begins with a large patch size and ends with vanilla NTP where the patch size is 1$\times$1, thus maintaining the original inference process without modifications. Extensive experiments across a diverse range of model sizes demonstrate that NPP could reduce the training cost to around 0.6 times while improving image generation quality by up to 1.0 FID score on the ImageNet 256x256 generation benchmark. Notably, our method retains the original autoregressive model architecture without introducing additional trainable parameters or specifically designing a custom image tokenizer, offering a flexible and plug-and-play solution for enhancing autoregressive visual generation.
Abstract（参考訳）: NTP(Next Token Prediction)パラダイムに基づいて構築された自動回帰モデルは、言語と視覚の両方を統合した統合フレームワークを開発する大きな可能性を示している。パイオニアリングは自動回帰視覚生成タスクにNTPを導入している。本研究では,自動回帰画像生成のためのNTPを再考し,NPP(Next Patch Prediction)パラダイムに拡張する。私たちのキーとなるアイデアは、画像トークンを高い情報密度のパッチトークンにグループ化して集約することです。パッチトークンをよりコンパクトな入力シーケンスとして使用することにより、自己回帰モデルは次のパッチを予測するために訓練され、計算コストを大幅に削減する。画像データの自然な階層構造をさらに活用するために,マルチスケールの粗いパッチグループ化戦略を提案する。この戦略では、トレーニングプロセスは、大きなパッチサイズから始まり、1$\times$1のバニラNTPで終わる。様々なモデルサイズにわたる大規模な実験により、NPPはトレーニングコストを約0.6倍に削減し、ImageNet 256x256生成ベンチマークで画像生成品質を最大1.0 FIDスコアで改善することを示した。特に,本手法では,トレーニング可能なパラメータを追加したり,カスタムイメージトークンを設計したりすることなく,独自の自己回帰モデルアーキテクチャを保ち,フレキシブルかつプラグアンドプレイで自動回帰ビジュアル生成を向上するソリューションを提供する。

関連論文リスト

AliTok: Towards Sequence Modeling Alignment between Tokenizer and Autoregressive Model [59.065471969232284]
トークン化と自己回帰モデルを整合させる新しいアラインド・トークン化器(AliTok)を提案する。 ImageNet-256ベンチマークでは、標準デコーダのみの自己回帰モデルをジェネレータとして使用し、AliTokはgFIDスコア1.50とIS305.9を達成している。パラメータ数が 662M に増加すると、AliTok は gFID スコア 1.35 に達し、10倍高速サンプリング速度で最先端拡散法を上回ります。
論文参考訳（メタデータ） (2025-06-05T17:45:10Z)
Policy Optimized Text-to-Image Pipeline Design [72.87655664038617]
本稿では,テキスト・ツー・イメージ生成のための新しい強化学習フレームワークを提案する。提案手法は、まず、画像品質のスコアをインタプリタ-ワークフローの組み合わせから直接予測できる報奨モデルのアンサンブルを訓練する。次に、最初の語彙学習とGRPOに基づく最適化という2段階のトレーニング戦略を実装した。
論文参考訳（メタデータ） (2025-05-27T17:50:47Z)
Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。 GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文参考訳（メタデータ） (2025-04-24T17:59:56Z)
Beyond Next-Token: Next-X Prediction for Autoregressive Visual Generation [34.112157859384645]
自己回帰(AR)モデリングは、最先端の言語と視覚的生成モデルを支える。伝統的に、トークン'' は最小の予測単位として扱われ、しばしば言語における離散的なシンボルまたは視覚における量子化されたパッチとして扱われる。トークンの概念をエンティティXに拡張するフレームワークであるxARを提案する。
論文参考訳（メタデータ） (2025-02-27T18:59:08Z)
Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More [34.12661784331014]
本稿では,パッチ方式による圧縮符号化のパラダイムによる情報損失について検討する。我々は広範囲にわたるパッチサイズスケーリング実験を行い、パッチ化における興味深いスケーリング法則を興奮的に観察する。副産物として、より小さいパッチでは、タスク固有のデコーダヘッドは、より密集した予測では重要でないことが分かる。
論文参考訳（メタデータ） (2025-02-06T03:01:38Z)
PatchDPO: Patch-level DPO for Finetuning-free Personalized Image Generation [34.528256332657406]
ファインタニングのないパーソナライズされた画像生成は、テストタイムの微調整なしにカスタマイズされた画像を合成することができる。本研究は,各画像内の画像パッチの品質を推定し,それに基づいてモデルをトレーニングするPatchDPOを提案する。実験の結果,PatchDPOは複数の事前学習されたパーソナライズされた生成モデルの性能を著しく向上させることがわかった。
論文参考訳（メタデータ） (2024-12-04T09:59:43Z)
Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective [52.778766190479374]
遅延ベース画像生成モデルは、画像生成タスクにおいて顕著な成功を収めた。同じ遅延空間を共有するにもかかわらず、自己回帰モデルは画像生成において LDM や MIM よりもかなり遅れている。本稿では,画像生成モデルのための遅延空間を安定化する,単純だが効果的な離散画像トークン化手法を提案する。
論文参考訳（メタデータ） (2024-10-16T12:13:17Z)
Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation [74.15447383432262]
Open-MAGVIT2プロジェクトは、GoogleのMAGVIT-v2トークンのオープンソースレプリケーションを生成する。我々は、大規模なデータに基づいて事前訓練されたトークンーザを提供し、ゼロショットベンチマークでコスモスを著しく上回っている。我々は3億から1.5Bまでの自己回帰画像生成モデル群を作成した。
論文参考訳（メタデータ） (2024-09-06T17:14:53Z)
Multi-Modal Parameter-Efficient Fine-tuning via Graph Neural Network [2.12696199609647]
本稿では,グラフネットワークに基づくマルチモーダルパラメータ効率の微調整手法を提案する。提案したモデルでは,OxfordPets,Flowers102,Food101の各データセットでそれぞれ4.45%,2.92%,0.23%の改善が達成されている。
論文参考訳（メタデータ） (2024-08-01T05:24:20Z)
Rejuvenating image-GPT as Strong Visual Representation Learners [28.77567067712619]
本稿では,次のピクセルの予測に自己回帰事前学習を導入する先駆的な研究である画像GPTを強化する。我々は、予測対象を生の画素から意味トークンにシフトし、視覚的内容の高レベルな理解を可能にする。実験では、D-iGPTが視覚表現の強力な学習者として優れていることが示された。
論文参考訳（メタデータ） (2023-12-04T18:59:20Z)
Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack [75.00066365801993]
Webスケールの画像-テキストペアによるテキスト-画像モデルのトレーニングにより、テキストから幅広い視覚概念を生成することができる。これらの事前訓練されたモデルは、高度に美的な画像を生成することに関して、しばしば課題に直面します。本稿では,高度に視覚的に魅力的な画像のみを生成するために,事前学習されたモデルを誘導する品質チューニングを提案する。
論文参考訳（メタデータ） (2023-09-27T17:30:19Z)
Query-Efficient Decision-based Black-Box Patch Attack [36.043297146652414]
本稿では,クエリ効率の高い決定ベースのパッチアタックに対して,DevoPatchという微分進化アルゴリズムを提案する。 DevoPatchは、パッチ領域とアタック成功率の点で、最先端のブラックボックスパッチ攻撃を上回っている。本稿では,ViTの脆弱性評価と画像分類を,初めて決定ベースのパッチアタック設定で実施する。
論文参考訳（メタデータ） (2023-07-02T05:15:43Z)
Memory Efficient Diffusion Probabilistic Models via Patch-based Generation [11.749564892273828]
拡散確率モデルは高品質で多様な画像を生成することに成功している。入力と出力が高解像度の画像である従来のモデルは、過剰なメモリ要求に悩まされている。本稿では,パッチ・バイ・パッチ・ベースで画像を生成する拡散確率モデルに対するパッチベースのアプローチを提案する。
論文参考訳（メタデータ） (2023-04-14T12:20:18Z)
Centroid-centered Modeling for Efficient Vision Transformer Pre-training [44.24223088955106]
Masked Image Modeling (MIM)は、視覚変換器(ViT)を用いた新しい自己教師型ビジョン事前学習パラダイムである。提案するCentroid-based approach, CCViT は k-means clustering を利用して画像モデリングのためのCentroid を得る。提案手法は, 外部監督や蒸留訓練を伴わずに, 最近のベースラインと競合する結果が得られる。
論文参考訳（メタデータ） (2023-03-08T15:34:57Z)
Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。 PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。 PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文参考訳（メタデータ） (2022-06-22T01:11:29Z)
Corrupted Image Modeling for Self-Supervised Visual Pre-Training [103.99311611776697]
自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。 CIMは、小さなトレーニング可能なBEiTを備えた補助発電機を使用して、人工マスクトークンを使用する代わりに入力イメージを破損させる。事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。
論文参考訳（メタデータ） (2022-02-07T17:59:04Z)
Evolving Image Compositions for Feature Representation Learning [22.22790506995431]
PatchMixは、グリッドのようなパターンで一対のイメージからパッチを合成することで、新しいサンプルを作成するデータ拡張手法である。 PatchMixを使用したImageNetでトレーニングされたResNet-50モデルは、幅広いベンチマークで優れた転送学習能力を示している。
論文参考訳（メタデータ） (2021-06-16T17:57:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。