論文の概要: Layout-Conditioned Autoregressive Text-to-Image Generation via Structured Masking
- arxiv url: http://arxiv.org/abs/2509.12046v1
- Date: Mon, 15 Sep 2025 15:27:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.368334
- Title: Layout-Conditioned Autoregressive Text-to-Image Generation via Structured Masking
- Title(参考訳): 構造化マスキングによるレイアウトコンディション自動回帰テキスト・画像生成
- Authors: Zirui Zheng, Takashi Isobe, Tong Shen, Xu Jia, Jianbin Zhao, Xiaomin Li, Mengmeng Ge, Baolu Li, Qinghe Wang, Dong Li, Dong Zhou, Yunzhi Zhuge, Huchuan Lu, Emad Barsoum,
- Abstract要約: 我々はARベースレイアウト・トゥ・イメージ(SMARLI)のための構造化マスキングを提案する。
SMARLIは空間レイアウト制約をARベースの画像生成に統合する。
ARモデルの構造的単純さと生成効率を維持しながら、優れたレイアウトアウェア制御を実現する。
- 参考スコア(独自算出の注目度): 58.238858463243396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While autoregressive (AR) models have demonstrated remarkable success in image generation, extending them to layout-conditioned generation remains challenging due to the sparse nature of layout conditions and the risk of feature entanglement. We present Structured Masking for AR-based Layout-to-Image (SMARLI), a novel framework for layoutto-image generation that effectively integrates spatial layout constraints into AR-based image generation. To equip AR model with layout control, a specially designed structured masking strategy is applied to attention computation to govern the interaction among the global prompt, layout, and image tokens. This design prevents mis-association between different regions and their descriptions while enabling sufficient injection of layout constraints into the generation process. To further enhance generation quality and layout accuracy, we incorporate Group Relative Policy Optimization (GRPO) based post-training scheme with specially designed layout reward functions for next-set-based AR models. Experimental results demonstrate that SMARLI is able to seamlessly integrate layout tokens with text and image tokens without compromising generation quality. It achieves superior layoutaware control while maintaining the structural simplicity and generation efficiency of AR models.
- Abstract(参考訳): 自己回帰(AR)モデルは画像生成において顕著な成功を収めてきたが、レイアウト条件の緩やかな性質と特徴絡みのリスクのため、それらをレイアウト条件付き世代に拡張することは依然として困難である。
本稿では、空間配置制約をARベース画像生成に効果的に統合するレイアウト画像生成のための新しいフレームワークSMARLI(Structured Masking for AR-based Layout-to-Image)を提案する。
レイアウト制御を備えたARモデルを実現するために、アテンション計算に特別に設計された構造化マスキング戦略を適用し、グローバルプロンプト、レイアウト、画像トークン間の相互作用を管理する。
この設計は、異なる領域とその記述間の誤関連を防止し、生成プロセスに十分なレイアウト制約を注入することを可能にする。
生成品質とレイアウトの精度をさらに高めるため,グループ相対ポリシー最適化(GRPO)に基づくポストトレーニングスキームを,次セットベースARモデル用に特別に設計したレイアウト報酬関数に組み入れた。
実験の結果,SMARLIは生成品質を損なうことなく,レイアウトトークンをテキストや画像トークンとシームレスに統合できることがわかった。
ARモデルの構造的単純さと生成効率を維持しながら、優れたレイアウトアウェア制御を実現する。
関連論文リスト
- Conditional Panoramic Image Generation via Masked Autoregressive Modeling [35.624070746282186]
本稿では,これらの課題に対処するために,マスク付き自己回帰モデルを活用した統合フレームワークパノラマ自動回帰モデル(PAR)を提案する。
既存の生成モデルに固有の不連続性に対処するため,空間コヒーレンスを高めるために円パディングを導入する。
実験では、テキスト・ツー・イメージ生成とパノラマ・アパインティング・タスクの競争性能を示す。
論文 参考訳(メタデータ) (2025-05-22T16:20:12Z) - Anchor Token Matching: Implicit Structure Locking for Training-free AR Image Editing [60.102602955261084]
Implicit Structure Locking (ISLock)は、ARビジュアルモデルのためのトレーニング不要な編集戦略である。
本手法は,自己注意パターンと参照画像とを動的にアライメントすることで,構造的青写真を保存する。
我々の研究は、ARベースの画像編集を効率的かつ柔軟なものにする方法を開拓し、拡散と自己回帰生成モデルのパフォーマンスギャップをさらに埋めることに成功した。
論文 参考訳(メタデータ) (2025-04-14T17:25:19Z) - LayoutDiT: Exploring Content-Graphic Balance in Layout Generation with Diffusion Transformer [46.67415676699221]
我々は、高品質で視覚的に魅力的なレイアウトを生成するために、コンテンツとグラフィック機能のバランスをとるフレームワークを導入する。
具体的には、レイアウト生成空間に対するモデルの認識を最適化する適応係数を設計する。
また、視覚領域における画像と幾何学パラメータ領域におけるレイアウトのモダリティ差を橋渡しするために、図形条件であるサリエンシ境界ボックスを導入する。
論文 参考訳(メタデータ) (2024-07-21T17:58:21Z) - PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。
データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。
我々は,ユーザのデザイン意図に基づいて編集可能なポスターを生成する自動テキスト投稿システムを開発した。
論文 参考訳(メタデータ) (2024-06-05T03:05:52Z) - Retrieval-Augmented Layout Transformer for Content-Aware Layout Generation [30.101562738257588]
コンテンツ対応グラフィックレイアウト生成は、Eコマース製品イメージなどの所定のコンテンツとともに、視覚要素を自動的に配置することを目的としている。
単純な検索拡張により生成品質が大幅に向上することを示す。
Retrieval-Augmented Layout Transformer (RALF) と呼ばれる我々のモデルは、入力画像に基づいて近接したレイアウト例を検索し、これらの結果を自己回帰生成器に供給する。
論文 参考訳(メタデータ) (2023-11-22T18:59:53Z) - Diagnostic Benchmark and Iterative Inpainting for Layout-Guided Image Generation [147.81509219686419]
本研究では,空間制御の4つの分野(数,位置,サイズ,形状)について,レイアウト誘導画像生成のための診断ベンチマークを提案する。
次に,新しいベースラインであるIterInpaintを提案する。
本研究はIterInpaintに関する総合的アブレーション研究である。
論文 参考訳(メタデータ) (2023-04-13T16:58:33Z) - ALR-GAN: Adaptive Layout Refinement for Text-to-Image Synthesis [42.86424135174045]
本稿では,新たなテキスト・画像生成ネットワークである適応レイアウトリファインメント生成支援ネットワーク(ALR-GAN)を提案する。
ALR-GANは、Adaptive Layout Refinement (ALR)モジュールとLayout Visual Refinement (LVR)損失を含む。
ALR-GANはテキスト・ツー・イメージ生成タスクにおいて競合的に動作することを示す。
論文 参考訳(メタデータ) (2023-04-13T07:07:01Z) - Semantic Palette: Guiding Scene Generation with Class Proportions [34.746963256847145]
本稿では,シーン生成プロセスの指針として,クラス比率を効果的に許容する,新しいアーキテクチャ設計と学習目標を備えた条件付きフレームワークを提案する。
セマンティックコントロールにより、実際の分布に近いレイアウトを生成でき、シーン生成プロセス全体の拡張に役立つ。
実際のレイアウトとイメージのペアでトレーニングされたセグメンテーションセグメントは、実際のペアでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2021-06-03T07:04:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。