論文の概要: Hawk: Leveraging Spatial Context for Faster Autoregressive Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2510.25739v1
- Date: Wed, 29 Oct 2025 17:43:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.895111
- Title: Hawk: Leveraging Spatial Context for Faster Autoregressive Text-to-Image Generation
- Title(参考訳): Hawk: より高速な自動回帰テキスト・画像生成のための空間コンテキストの活用
- Authors: Zhi-Kai Chen, Jun-Peng Jiang, Han-Jia Ye, De-Chuan Zhan,
- Abstract要約: 投機的復号化は、品質を損なうことなくテキスト生成を加速させる可能性を示している。
我々は、画像の空間構造を利用して投機モデルをより正確で効率的な予測へと導く新しいアプローチであるHawkを紹介する。
複数のテキストと画像のベンチマークの実験結果は、標準的なARモデルよりも1.71倍のスピードアップを示している。
- 参考スコア(独自算出の注目度): 87.00172597953228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive (AR) image generation models are capable of producing high-fidelity images but often suffer from slow inference due to their inherently sequential, token-by-token decoding process. Speculative decoding, which employs a lightweight draft model to approximate the output of a larger AR model, has shown promise in accelerating text generation without compromising quality. However, its application to image generation remains largely underexplored. The challenges stem from a significantly larger sampling space, which complicates the alignment between the draft and target model outputs, coupled with the inadequate use of the two-dimensional spatial structure inherent in images, thereby limiting the modeling of local dependencies. To overcome these challenges, we introduce Hawk, a new approach that harnesses the spatial structure of images to guide the speculative model toward more accurate and efficient predictions. Experimental results on multiple text-to-image benchmarks demonstrate a 1.71x speedup over standard AR models, while preserving both image fidelity and diversity.
- Abstract(参考訳): 自己回帰(AR)画像生成モデルは、高忠実度画像を生成することができるが、本質的にシーケンシャルなトークン・バイ・トークン・バイ・トークン・デコーディングプロセスのため、推論が遅くなることが多い。
投機的復号化は、より大規模なARモデルの出力を近似するために軽量なドラフトモデルを用いており、品質を損なうことなくテキスト生成を加速する可能性を示している。
しかし、画像生成へのその応用はいまだに未検討である。
この課題は、画像に固有の2次元空間構造の不十分な使用と相まって、ドラフトとターゲットモデル出力の整合性を複雑にし、局所的な依存関係のモデリングを制限する、はるかに大きなサンプリング空間に起因している。
これらの課題を克服するために、より正確かつ効率的な予測に向けて投機モデルを導くために、画像の空間構造を利用する新しいアプローチであるHawkを導入する。
複数のテキスト・ツー・イメージベンチマークの実験結果は、画像の忠実さと多様性の両方を保ちながら、標準的なARモデルよりも1.71倍のスピードアップを示している。
関連論文リスト
- Towards Better & Faster Autoregressive Image Generation: From the Perspective of Entropy [23.573364375818553]
本研究は,現在の自己回帰画像生成モデルにおけるサンプリング問題を再検討する。
画像トークンは、テキストトークンとは異なり、低い情報密度と一様でない空間分布を示す。
本稿では,高速な合成速度で自己回帰生成品質を向上させるエントロピーインフォームデコード戦略を提案する。
論文 参考訳(メタデータ) (2025-10-10T05:26:11Z) - One-Way Ticket:Time-Independent Unified Encoder for Distilling Text-to-Image Diffusion Models [65.96186414865747]
テキスト・ツー・イメージ(T2I)拡散モデルは、推論速度と画質のトレードオフに直面している。
学生モデルUNetアーキテクチャのための最初の時間非依存の統一TiUEを紹介する。
ワンパススキームを使用して、TiUEは複数のデコーダタイムステップにまたがるエンコーダ機能を共有し、並列サンプリングを可能にする。
論文 参考訳(メタデータ) (2025-05-28T04:23:22Z) - NFIG: Multi-Scale Autoregressive Image Generation via Frequency Ordering [47.442844594442455]
NextFrequency Image Generation (NFIG)は、画像生成プロセスを複数の周波数誘導段階に分解する新しいフレームワークである。
NFIGは生成過程を自然な画像構造と整合させる。
これは最初に低周波成分を生成し、トークンを著しく少なくして効率的にグローバル構造を捉え、その後、徐々に高周波の細部を付加することで実現している。
論文 参考訳(メタデータ) (2025-03-10T08:59:10Z) - Frequency Autoregressive Image Generation with Continuous Tokens [31.833852108014312]
本稿では、周波数プログレッシブ自己回帰(textbfFAR)パラダイムを導入し、連続トークン化器を用いてFARをインスタンス化する。
我々は、ImageNetデータセットの総合的な実験を通して、FARの有効性を実証する。
論文 参考訳(メタデータ) (2025-03-07T10:34:04Z) - Visual Autoregressive Modeling for Image Super-Resolution [14.935662351654601]
次世代の予測モデルとして, ISRフレームワークの視覚的自己回帰モデルを提案する。
大規模データを収集し、ロバストな生成先行情報を得るためのトレーニングプロセスを設計する。
論文 参考訳(メタデータ) (2025-01-31T09:53:47Z) - Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.57727062920458]
本稿では,非自己回帰型マスク画像モデリング(MIM)をSDXLのような最先端拡散モデルに匹敵するレベルまで高めるMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いる。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - LANTERN: Accelerating Visual Autoregressive Models with Relaxed Speculative Decoding [30.630803933771865]
実験により,提案手法が投機的復号化よりも大幅に高速化されたことを示す。
LANTERNは、greedyデコーディングやランダムサンプリングと比較して、$mathbf1.75times$と$mathbf1.82times$のスピードアップを増大させる。
論文 参考訳(メタデータ) (2024-10-04T12:21:03Z) - Accelerating Auto-regressive Text-to-Image Generation with Training-free Speculative Jacobi Decoding [60.188309982690335]
本稿では,SJD (Speculative Jacobi Decoding) の学習自由確率並列復号法を提案する。
SJDは、サンプリングベースのトークン復号におけるランダム性を維持しつつ、自動回帰テキスト・画像生成の推論を加速する。
具体的には、SJDは各ステップで複数のトークンを予測し、確率的基準に基づいてトークンを受け付けます。
論文 参考訳(メタデータ) (2024-10-02T16:05:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。