論文の概要: Progress by Pieces: Test-Time Scaling for Autoregressive Image Generation
- arxiv url: http://arxiv.org/abs/2511.21185v1
- Date: Wed, 26 Nov 2025 09:01:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.027787
- Title: Progress by Pieces: Test-Time Scaling for Autoregressive Image Generation
- Title(参考訳): 自動回帰画像生成のためのテスト時間スケーリング
- Authors: Joonhyung Park, Hyeongwon Jang, Joowon Kim, Eunho Yang,
- Abstract要約: 視覚的自己回帰(AR)モデルのためのテスト時間スケーリングフレームワークであるGridARを紹介した。
GridARは、限定的なテストタイムスケーリングの下で、高品質な結果を達成する。
また、自動回帰画像編集を一般化し、同等の編集品質と意味保存の13.9%の上昇を示す。
- 参考スコア(独自算出の注目度): 41.17003095454103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent visual autoregressive (AR) models have shown promising capabilities in text-to-image generation, operating in a manner similar to large language models. While test-time computation scaling has brought remarkable success in enabling reasoning-enhanced outputs for challenging natural language tasks, its adaptation to visual AR models remains unexplored and poses unique challenges. Naively applying test-time scaling strategies such as Best-of-N can be suboptimal: they consume full-length computation on erroneous generation trajectories, while the raster-scan decoding scheme lacks a blueprint of the entire canvas, limiting scaling benefits as only a few prompt-aligned candidates are generated. To address these, we introduce GridAR, a test-time scaling framework designed to elicit the best possible results from visual AR models. GridAR employs a grid-partitioned progressive generation scheme in which multiple partial candidates for the same position are generated within a canvas, infeasible ones are pruned early, and viable ones are fixed as anchors to guide subsequent decoding. Coupled with this, we present a layout-specified prompt reformulation strategy that inspects partial views to infer a feasible layout for satisfying the prompt. The reformulated prompt then guides subsequent image generation to mitigate the blueprint deficiency. Together, GridAR achieves higher-quality results under limited test-time scaling: with N=4, it even outperforms Best-of-N (N=8) by 14.4% on T2I-CompBench++ while reducing cost by 25.6%. It also generalizes to autoregressive image editing, showing comparable edit quality and a 13.9% gain in semantic preservation on PIE-Bench over larger-N baselines.
- Abstract(参考訳): 最近の視覚的自己回帰(AR)モデルでは、大きな言語モデルに似た方法で、テキストから画像生成において有望な能力を示している。
テスト時間計算のスケーリングは、自然言語タスクに挑戦するために推論強化されたアウトプットを可能にするという大きな成功をもたらしたが、ビジュアルARモデルへの適応は未検討のままであり、ユニークな課題を提起している。
Best-of-Nのようなテストタイムスケーリング戦略を非最適に適用することは、誤った生成軌道上でフル長の計算を消費するのに対して、raster-scanデコード方式ではキャンバス全体の青写真が欠落しており、いくつかのプロンプト整列候補が生成されるため、スケーリングのメリットが制限される。
これらの問題に対処するために、ビジュアルARモデルから可能な限り最高の結果を引き出すように設計されたテスト時間スケーリングフレームワークであるGridARを紹介します。
GridARはグリッド分割プログレッシブ生成方式を採用しており、同一位置の複数の部分的候補がキャンバス内で生成され、実現不可能な候補が早期にプルーニングされ、実行可能候補がアンカーとして固定され、その後の復号を導く。
これと合わせて,部分的なビューを検査して,プロンプトを満たすための実行可能なレイアウトを推測する,レイアウト指定のプロンプト修正戦略を提案する。
改革されたプロンプトは、その後の画像生成をガイドし、ブループリント欠損を緩和する。
N=4では、T2I-CompBench++でベストオブN(N=8)を14.4%上回り、コストを25.6%削減する。
また、自動回帰画像編集を一般化し、より大規模なNベースラインよりもPIE-Benchのセマンティックな保存が13.9%向上した。
関連論文リスト
- Hawk: Leveraging Spatial Context for Faster Autoregressive Text-to-Image Generation [87.00172597953228]
投機的復号化は、品質を損なうことなくテキスト生成を加速させる可能性を示している。
我々は、画像の空間構造を利用して投機モデルをより正確で効率的な予測へと導く新しいアプローチであるHawkを紹介する。
複数のテキストと画像のベンチマークの実験結果は、標準的なARモデルよりも1.71倍のスピードアップを示している。
論文 参考訳(メタデータ) (2025-10-29T17:43:31Z) - NFIG: Multi-Scale Autoregressive Image Generation via Frequency Ordering [47.442844594442455]
NextFrequency Image Generation (NFIG)は、画像生成プロセスを複数の周波数誘導段階に分解する新しいフレームワークである。
NFIGは生成過程を自然な画像構造と整合させる。
これは最初に低周波成分を生成し、トークンを著しく少なくして効率的にグローバル構造を捉え、その後、徐々に高周波の細部を付加することで実現している。
論文 参考訳(メタデータ) (2025-03-10T08:59:10Z) - FIANCEE: Faster Inference of Adversarial Networks via Conditional Early
Exits [0.7649605697963953]
本稿では,従来のアーキテクチャにいわゆる早期出口分岐を付加することにより,計算量を削減する手法を提案する。
生成タスクを行う2つの異なるSOTAモデルに本手法を適用した。
これは、品質損失を含む必要がある場合、顔の合成のようなリアルタイムアプリケーションに特に関係している。
論文 参考訳(メタデータ) (2023-04-20T13:40:49Z) - Progressive Text-to-Image Generation [40.09326229583334]
本稿では,高忠実度テキスト・画像生成のためのプログレッシブモデルを提案する。
提案手法は, 既存のコンテキストに基づいて, 粗い画像から細かな画像への新しい画像トークンの作成によって効果を発揮する。
結果として得られた粗大な階層構造により、画像生成プロセスは直感的で解釈可能である。
論文 参考訳(メタデータ) (2022-10-05T14:27:20Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z) - The Power of Triply Complementary Priors for Image Compressive Sensing [89.14144796591685]
本稿では,一対の相補的な旅先を含むLRD画像モデルを提案する。
次に、画像CSのためのRDモデルに基づく新しいハイブリッド・プラグイン・アンド・プレイ・フレームワークを提案する。
そこで,提案したH-based image CS問題の解法として,単純で効果的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-16T08:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。