論文の概要: NFIG: Multi-Scale Autoregressive Image Generation via Frequency Ordering
- arxiv url: http://arxiv.org/abs/2503.07076v5
- Date: Mon, 20 Oct 2025 06:31:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.233662
- Title: NFIG: Multi-Scale Autoregressive Image Generation via Frequency Ordering
- Title(参考訳): NFIG:周波数順序付けによるマルチスケール自己回帰画像生成
- Authors: Zhihao Huang, Xi Qiu, Yukuo Ma, Yifu Zhou, Junjie Chen, Hongyuan Zhang, Chi Zhang, Xuelong Li,
- Abstract要約: NextFrequency Image Generation (NFIG)は、画像生成プロセスを複数の周波数誘導段階に分解する新しいフレームワークである。
NFIGは生成過程を自然な画像構造と整合させる。
これは最初に低周波成分を生成し、トークンを著しく少なくして効率的にグローバル構造を捉え、その後、徐々に高周波の細部を付加することで実現している。
- 参考スコア(独自算出の注目度): 47.442844594442455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive models have achieved significant success in image generation. However, unlike the inherent hierarchical structure of image information in the spectral domain, standard autoregressive methods typically generate pixels sequentially in a fixed spatial order. To better leverage this spectral hierarchy, we introduce NextFrequency Image Generation (NFIG). NFIG is a novel framework that decomposes the image generation process into multiple frequency-guided stages. NFIG aligns the generation process with the natural image structure. It does this by first generating low-frequency components, which efficiently capture global structure with significantly fewer tokens, and then progressively adding higher-frequency details. This frequency-aware paradigm offers substantial advantages: it not only improves the quality of generated images but crucially reduces inference cost by efficiently establishing global structure early on. Extensive experiments on the ImageNet-256 benchmark validate NFIG's effectiveness, demonstrating superior performance (FID: 2.81) and a notable 1.25x speedup compared to the strong baseline VAR-d20. The source code is available at https://github.com/Pride-Huang/NFIG.
- Abstract(参考訳): 自己回帰モデルは画像生成において大きな成功を収めた。
しかし、スペクトル領域における画像情報の階層構造とは異なり、標準自己回帰法は通常、固定空間順序で連続的にピクセルを生成する。
このスペクトル階層をよりよく活用するために、NextFrequency Image Generation (NFIG)を紹介する。
NFIGは、画像生成プロセスを複数の周波数誘導段階に分解する新しいフレームワークである。
NFIGは生成過程を自然な画像構造と整合させる。
これは最初に低周波成分を生成し、トークンを著しく少なくして効率的にグローバル構造を捉え、その後、徐々に高周波の細部を付加することで実現している。
この周波数対応パラダイムは、生成した画像の品質を向上するだけでなく、早期にグローバルな構造を効率的に確立することにより、推論コストを大幅に削減する。
ImageNet-256ベンチマークの大規模な実験はNFIGの有効性を評価し、強力なベースラインであるVAR-d20と比較して優れた性能(FID: 2.81)と1.25倍のスピードアップを示した。
ソースコードはhttps://github.com/Pride-Huang/NFIGで入手できる。
関連論文リスト
- GriDiT: Factorized Grid-Based Diffusion for Efficient Long Image Sequence Generation [77.13582457917418]
サブサンプルフレームからなる格子画像にのみ依存する生成モデルを訓練する。
本研究では,Diffusion Transformer (DiT) の強い自己アテンション機構を用いて,フレーム間の相関関係を捉えることで,画像系列を生成することを学ぶ。
我々の手法は、データセット間で、品質および推論速度(少なくとも2倍の速さ)において、一貫してSoTAを上回ります。
論文 参考訳(メタデータ) (2025-12-24T16:46:04Z) - SFTok: Bridging the Performance Gap in Discrete Tokenizers [72.9996757048065]
複数ステップの反復機構を組み込んだ離散トークン化機構である textbfSFTok を提案する。
画像当たり64トークンの高速圧縮速度で、SFTokはImageNetの最先端の再構築品質を達成する。
論文 参考訳(メタデータ) (2025-12-18T18:59:04Z) - Generation then Reconstruction: Accelerating Masked Autoregressive Models via Two-Stage Sampling [14.372824543814602]
Masked Autoregressive (MAR)モデルは、並列生成能力のためのオートレグレッシブ(AR)モデルよりも、視覚生成の効率を向上する。
我々は、生成を2段階に分解するトレーニング不要な階層的サンプリング戦略であるGeneration then Reconstruction (GtR)を紹介した。
ImageNetのクラス条件とテキスト・ツー・イメージ生成の実験は、MAR-Hの3.72倍のスピードアップを示しながら、同等の品質を維持している。
論文 参考訳(メタデータ) (2025-10-20T05:22:10Z) - Missing Fine Details in Images: Last Seen in High Frequencies [17.95197409468585]
本稿では、低周波成分と高周波成分の最適化を明示的に分離するウェーブレットベースの周波数対応可変オートエンコーダ(FA-VAE)フレームワークを提案する。
提案手法は,現在の潜在トークン化器の忠実度ギャップを橋渡しし,実写画像合成における周波数認識最適化の重要性を強調する。
論文 参考訳(メタデータ) (2025-09-05T18:49:08Z) - Frequency-Aware Autoregressive Modeling for Efficient High-Resolution Image Synthesis [40.93077975823353]
視覚的自己回帰モデリングは、次のスケールの予測パラダイムに基づいており、画像の品質とモデルのスケーラビリティにおいて顕著な優位性を示している。
しかし、高解像度の段階での計算オーバーヘッドは、相当数のトークンが関与しているため、依然として重要な課題である。
Sparsevarは、次世代の予測のためのプラグイン・アンド・プレイ・アクセラレーション・フレームワークで、追加のトレーニングを必要とせず、推論中に低周波トークンを動的に排除する。
論文 参考訳(メタデータ) (2025-07-28T01:13:24Z) - DetailFlow: 1D Coarse-to-Fine Autoregressive Image Generation via Next-Detail Prediction [47.483590046908844]
本稿では,粗い1次元自己回帰(AR)画像生成法であるDetailFlowを提案する。
DetailFlowは、段階的に劣化したイメージで管理される解像度対応トークンシーケンスを学習することにより、グローバルな構造から生成プロセスを開始することができる。
提案手法は,従来の手法よりもはるかに少ないトークンで高品質な画像合成を実現する。
論文 参考訳(メタデータ) (2025-05-27T17:45:21Z) - Perceive, Understand and Restore: Real-World Image Super-Resolution with Autoregressive Multimodal Generative Models [33.76031793753807]
我々は、自己回帰型マルチモーダルモデルLumina-mGPTを堅牢なReal-ISRモデル、すなわちPUREに適応する。
PUREは入力された低画質の画像を認識して理解し、高品質の画像を復元する。
実験により、PUREはリアルな細部を生成しながら、画像の内容を保存していることが示された。
論文 参考訳(メタデータ) (2025-03-14T04:33:59Z) - Frequency Autoregressive Image Generation with Continuous Tokens [31.833852108014312]
本稿では、周波数プログレッシブ自己回帰(textbfFAR)パラダイムを導入し、連続トークン化器を用いてFARをインスタンス化する。
我々は、ImageNetデータセットの総合的な実験を通して、FARの有効性を実証する。
論文 参考訳(メタデータ) (2025-03-07T10:34:04Z) - Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
任意の制約下で高速かつ高品質な生成を可能にするアルゴリズムを提案する。
推測中、ノイズの多い画像上で計算された勾配更新と、最終的なクリーンな画像で計算されたアップデートとを交換できる。
我々のアプローチは、最先端のトレーニングフリー推論アプローチに匹敵するか、超越した結果をもたらす。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - An Image is Worth 32 Tokens for Reconstruction and Generation [54.24414696392026]
Transformer-based 1-dimensional Tokenizer (TiTok) は、画像を1D潜在シーケンスにトークン化する革新的なアプローチである。
TiTokは最先端のアプローチと競合するパフォーマンスを実現している。
我々の最高性能の変種は、DiT-XL/2 (gFID 2.13 vs. 3.04) をはるかに上回りながら、高品質なサンプルを74倍高速に生成できる。
論文 参考訳(メタデータ) (2024-06-11T17:59:56Z) - DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image
Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。
従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。
提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文 参考訳(メタデータ) (2023-12-12T06:07:21Z) - Progressive Text-to-Image Generation [40.09326229583334]
本稿では,高忠実度テキスト・画像生成のためのプログレッシブモデルを提案する。
提案手法は, 既存のコンテキストに基づいて, 粗い画像から細かな画像への新しい画像トークンの作成によって効果を発揮する。
結果として得られた粗大な階層構造により、画像生成プロセスは直感的で解釈可能である。
論文 参考訳(メタデータ) (2022-10-05T14:27:20Z) - Latent Multi-Relation Reasoning for GAN-Prior based Image
Super-Resolution [61.65012981435095]
LARENはグラフベースの非絡み合いであり、階層的マルチリレーショナル推論によってより優れた非絡み合い空間を構築する。
我々は、LARENが優れた大因子画像SRを実現し、複数のベンチマークで常に最先端の性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-08-04T19:45:21Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - Semi-Autoregressive Image Captioning [153.9658053662605]
画像キャプションに対する現在の最先端のアプローチは、通常自己回帰的手法を採用する。
連続的反復改善による非自己回帰画像キャプションは、かなりの加速を伴う自己回帰画像キャプションに匹敵する性能が得られる。
本稿では,性能と速度のトレードオフを改善するために,SAIC(Semi-Autoregressive Image Captioning)と呼ばれる新しい2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-11T15:11:54Z) - TFill: Image Completion via a Transformer-Based Architecture [69.62228639870114]
画像補完を無方向性シーケンス対シーケンス予測タスクとして扱うことを提案する。
トークン表現には,小かつ重複しないRFを持つ制限型CNNを用いる。
第2フェーズでは、可視領域と発生領域の外観整合性を向上させるために、新しい注意認識層(aal)を導入する。
論文 参考訳(メタデータ) (2021-04-02T01:42:01Z) - UltraSR: Spatial Encoding is a Missing Key for Implicit Image
Function-based Arbitrary-Scale Super-Resolution [74.82282301089994]
本研究では,暗黙的イメージ関数に基づく,シンプルで効果的な新しいネットワーク設計であるUltraSRを提案する。
空間符号化は,次の段階の高精度暗黙的画像機能に対する欠落鍵であることを示す。
UltraSRは、すべての超解像スケールでDIV2Kベンチマークに最新のパフォーマンスを設定します。
論文 参考訳(メタデータ) (2021-03-23T17:36:42Z) - Frequency Domain Image Translation: More Photo-realistic, Better
Identity-preserving [36.606114597585396]
本稿では,周波数情報を利用した新しい周波数領域画像翻訳フレームワークを提案する。
我々のキーとなる考え方は、画像を低周波および高周波の成分に分解することであり、そこでは、高周波の特徴がアイデンティティに似たオブジェクト構造をキャプチャする。
広汎な実験と改善により、FDITはソース画像のアイデンティティを効果的に保存し、フォトリアリスティック画像を生成する。
論文 参考訳(メタデータ) (2020-11-27T08:58:56Z) - The Power of Triply Complementary Priors for Image Compressive Sensing [89.14144796591685]
本稿では,一対の相補的な旅先を含むLRD画像モデルを提案する。
次に、画像CSのためのRDモデルに基づく新しいハイブリッド・プラグイン・アンド・プレイ・フレームワークを提案する。
そこで,提案したH-based image CS問題の解法として,単純で効果的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-16T08:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。