論文の概要: From "What" to "How": Constrained Reasoning for Autoregressive Image Generation
- arxiv url: http://arxiv.org/abs/2603.02712v1
- Date: Tue, 03 Mar 2026 08:03:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.702365
- Title: From "What" to "How": Constrained Reasoning for Autoregressive Image Generation
- Title(参考訳): 何」から「どのように」へ:自己回帰画像生成のための制約付き推論
- Authors: Ruxue Yan, Xubo Liu, Wenya Guo, Zhengkun Zhang, Ying Zhang, Xiaojie Yuan,
- Abstract要約: CoR-PainterはConstrained Reasoningを導入することで、"How-to-What"パラダイムを開拓する新しいフレームワークである。
まず、入力プロンプトから一連の視覚的制約を導出することで、"ハウ・トゥ・ドロー"を導出する。
これらの制約は、構造的に健全でコヒーレントな基礎を提供し、正確な視覚合成を行うための詳細な記述"What to draw"の生成を後回しにしている。
- 参考スコア(独自算出の注目度): 26.716018030404665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive image generation has seen recent improvements with the introduction of chain-of-thought and reinforcement learning. However, current methods merely specify "What" details to depict by rewriting the input prompt, yet fundamentally fail to reason about "How" to structure the overall image. This inherent limitation gives rise to persistent issues, such as spatial ambiguity directly causing unrealistic object overlaps. To bridge this gap, we propose CoR-Painter, a novel framework that pioneers a "How-to-What" paradigm by introducing Constrained Reasoning to guide the autoregressive generation. Specifically, it first deduces "How to draw" by deriving a set of visual constraints from the input prompt, which explicitly govern spatial relationships, key attributes, and compositional rules. These constraints steer the subsequent generation of a detailed description "What to draw", providing a structurally sound and coherent basis for accurate visual synthesis. Additionally, we introduce a Dual-Objective GRPO strategy that specifically optimizes the textual constrained reasoning and visual projection processes to ensure the coherence and quality of the entire generation pipeline. Extensive experiments on T2I-CompBench, GenEval, and WISE demonstrate that our method achieves state-of-the-art performance, with significant improvements in spatial metrics (e.g., +5.41% on T2I-CompBench).
- Abstract(参考訳): 自己回帰画像生成は、チェーン・オブ・ソートと強化学習の導入により、近年改善されている。
しかしながら、現在の手法では、入力プロンプトを書き換えて描写する"What"の詳細を単に指定しているが、全体像を構造化する"How"について基本的には説明できない。
この固有の制限は、空間的曖昧さなど永続的な問題を引き起こし、非現実的なオブジェクトが直接重複する。
このギャップを埋めるために、我々は、自己回帰世代を導くために制約付き推論を導入することにより、"ハウ・トゥ・ワウ"パラダイムを開拓する新しいフレームワークであるCoR-Painterを提案する。
具体的には、入力プロンプトから一連の視覚的制約を導出し、空間的関係、キー属性、構成規則を明示的に規定することで、まず「描画方法」を導出する。
これらの制約は、構造的に健全でコヒーレントな基礎を提供し、正確な視覚合成を行うための詳細な記述"What to draw"の生成を後回しにしている。
さらに、生成パイプライン全体のコヒーレンスと品質を確保するために、テキスト制約推論とビジュアルプロジェクションプロセスを特に最適化するDual-Objective GRPO戦略を導入する。
T2I-CompBench, GenEval, WISEの大規模実験により, この手法は空間的指標(T2I-CompBenchでは+5.41%)を大幅に改善し, 最先端の性能を実現することを示した。
関連論文リスト
- DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept Generation [69.69738832428543]
DraCo(DraCo)は,テキスト・ツー・イメージ生成を向上するための新たなインターリーブな推論パラダイムである。
提案手法はまず,低解像度のドラフト画像をプレビューとして生成し,より具体的で構造的な視覚計画とガイダンスを提供する。
DraCoがGenEval(+8%)、Imagine-Bench(+0.91)、GenEval++(+3%)の大幅な増加を実現
論文 参考訳(メタデータ) (2025-12-04T18:59:53Z) - IAR2: Improving Autoregressive Visual Generation with Semantic-Detail Associated Token Prediction [77.06211178777939]
IAR2は、階層的なセマンティックディーテール合成プロセスを可能にする高度な自己回帰フレームワークである。
我々は、IAR2が自動回帰画像生成のための新しい最先端技術を設定し、ImageNet上で1.50のFIDを達成することを示す。
論文 参考訳(メタデータ) (2025-10-08T12:08:21Z) - Detail++: Training-Free Detail Enhancer for Text-to-Image Diffusion Models [6.140839748607505]
Detail++はプログレッシブ・ディテール・インジェクション(PDI)生成のためのトレーニング不要のフレームワークである。
複雑なプロンプトを単純化されたサブプロンプト列に分解し、生成プロセスを段階的に導く。
T2I-CompBenchと新たに構築されたスタイルコンポジションベンチマークの実験は、Detail++が既存のメソッドよりも大幅に優れていることを示している。
論文 参考訳(メタデータ) (2025-07-23T18:20:46Z) - RePrompt: Reasoning-Augmented Reprompting for Text-to-Image Generation via Reinforcement Learning [88.14234949860105]
RePromptは、強化学習による迅速な強化プロセスに明示的な推論を導入する、新しいリプロンプトフレームワークである。
提案手法は,人手による注釈付きデータなしでエンドツーエンドのトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-05-23T06:44:26Z) - GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning [47.592351387052545]
GoT-R1は、視覚生成における意味空間推論を強化するために強化学習を適用するフレームワークである。
本稿では,MLLMを用いた2段階多次元報酬フレームワークを提案する。
実験の結果, T2I-CompBenchベンチマークで有意な改善が認められた。
論文 参考訳(メタデータ) (2025-05-22T17:59:58Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Unlocking the Potential of Text-to-Image Diffusion with PAC-Bayesian Theory [33.78620829249978]
テキスト・ツー・イメージ(T2I)拡散モデルは、高忠実で多彩で視覚的にリアルな画像を生成することによって、生成モデルに革命をもたらした。
最近の注目度に基づく手法は、オブジェクトの包摂性や言語的バインディングを改善してきたが、それでも属性のミスバインディングのような課題に直面している。
そこで,ベイズ的手法を用いて,所望のプロパティを強制するために,注意分布を優先したカスタムプライドを設計する手法を提案する。
本手法では,アテンション機構を解釈可能なコンポーネントとして扱い,微粒化制御と属性オブジェクトアライメントの改善を実現している。
論文 参考訳(メタデータ) (2024-11-25T10:57:48Z) - Training-free Composite Scene Generation for Layout-to-Image Synthesis [29.186425845897947]
本稿では,拡散条件下での対角的意味交叉を克服するために,新しい学習自由アプローチを提案する。
本稿では,(1)トークン競合を解消し,正確な概念合成を保証するためのトークン間制約,2)画素間関係を改善する自己注意制約,という2つの革新的な制約を提案する。
本評価では,拡散過程の導出にレイアウト情報を活用することで,忠実度と複雑さを向上したコンテンツリッチな画像を生成することの有効性を確認した。
論文 参考訳(メタデータ) (2024-07-18T15:48:07Z) - DivCon: Divide and Conquer for Complex Numerical and Spatial Reasoning in Text-to-Image Generation [0.0]
近年,拡散駆動型テキスト・ツー・イメージ(T2I)生成は顕著な進歩を遂げている。
レイアウトは、大きな言語モデルとレイアウトベースの拡散モデルを橋渡しするためのインターメジウムとして使用される。
本稿では,生成タスクを複数のサブタスクに分割する分割・コンカレント手法を提案する。
論文 参考訳(メタデータ) (2024-03-11T03:24:44Z) - Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion
Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。
本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。
提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文 参考訳(メタデータ) (2023-12-10T22:07:42Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。