論文の概要: HiCoGen: Hierarchical Compositional Text-to-Image Generation in Diffusion Models via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.19965v1
- Date: Tue, 25 Nov 2025 06:24:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.299974
- Title: HiCoGen: Hierarchical Compositional Text-to-Image Generation in Diffusion Models via Reinforcement Learning
- Title(参考訳): HiCoGen: 強化学習による拡散モデルにおける階層的合成テキスト・画像生成
- Authors: Hongji Yang, Yucheng Zhou, Wencheng Han, Runzhou Tao, Zhongying Qiu, Jianfei Yang, Jianbing Shen,
- Abstract要約: HiCoGenは、新しいChain of Synthesisパラダイムに基づいて構築されている。
複雑なプロンプトを最小の意味単位に分解する。
その後、これらのユニットを反復的に合成し、各ステップで生成された画像が次に重要な視覚的コンテキストを提供する。
実験により,提案手法は概念カバレッジと構成精度の両方において,既存手法よりも有意に優れていた。
- 参考スコア(独自算出の注目度): 66.99487505369254
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in diffusion models have demonstrated impressive capability in generating high-quality images for simple prompts. However, when confronted with complex prompts involving multiple objects and hierarchical structures, existing models struggle to accurately follow instructions, leading to issues such as concept omission, confusion, and poor compositionality. To address these limitations, we propose a Hierarchical Compositional Generative framework (HiCoGen) built upon a novel Chain of Synthesis (CoS) paradigm. Instead of monolithic generation, HiCoGen first leverages a Large Language Model (LLM) to decompose complex prompts into minimal semantic units. It then synthesizes these units iteratively, where the image generated in each step provides crucial visual context for the next, ensuring all textual concepts are faithfully constructed into the final scene. To further optimize this process, we introduce a reinforcement learning (RL) framework. Crucially, we identify that the limited exploration of standard diffusion samplers hinders effective RL. We theoretically prove that sample diversity is maximized by concentrating stochasticity in the early generation stages and, based on this insight, propose a novel Decaying Stochasticity Schedule to enhance exploration. Our RL algorithm is then guided by a hierarchical reward mechanism that jointly evaluates the image at the global, subject, and relationship levels. We also construct HiCoPrompt, a new text-to-image benchmark with hierarchical prompts for rigorous evaluation. Experiments show our approach significantly outperforms existing methods in both concept coverage and compositional accuracy.
- Abstract(参考訳): 拡散モデルの最近の進歩は、単純なプロンプトのために高品質な画像を生成するという印象的な能力を示している。
しかし、複数のオブジェクトや階層構造を含む複雑なプロンプトに直面した場合、既存のモデルは正確に指示に従うのに苦労し、概念の省略、混乱、構成性の貧弱といった問題に繋がる。
このような制約に対処するために,新しい合成の連鎖(CoS)パラダイムに基づく階層的構成生成フレームワーク(HiCoGen)を提案する。
HiCoGenはモノリシックな生成ではなく、まずLarge Language Model(LLM)を利用して複雑なプロンプトを最小のセマンティックユニットに分解する。
その後、これらのユニットを反復的に合成し、各ステップで生成されたイメージが次に重要な視覚的コンテキストを提供し、すべてのテキスト概念が最終シーンに忠実に構築されるようにする。
このプロセスをさらに最適化するために、強化学習(RL)フレームワークを導入する。
重要なこととして,標準拡散サンプリング器の限定的な探索は有効RLを妨げている。
我々は,初期確率性に集中させることで,標本の多様性が最大であると理論的に証明し,この知見に基づいて,探索を強化するための新しい確率性スケジュールを提案する。
我々のRLアルゴリズムは階層的な報酬機構によって導かれ、グローバル、主題、関係のレベルで画像を共同で評価する。
また、厳密な評価のための階層的なプロンプトを備えた新しいテキスト・イメージ・ベンチマークであるHiCoPromptを構築した。
実験により,提案手法は概念カバレッジと構成精度の両方において,既存手法よりも有意に優れていた。
関連論文リスト
- GloTok: Global Perspective Tokenizer for Image Reconstruction and Generation [51.95701097588426]
トークン化された特徴のより均一な意味分布をモデル化するために,Global Perspective Tokenizer(GloTok)を導入する。
量子化による再構成誤差を最小限に抑えるために, 微細な細部を復元するために, 残差学習モジュールを提案する。
標準のImageNet-1kベンチマーク実験により,提案手法が最先端の復元性能と生成品質を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-18T06:40:26Z) - IAR2: Improving Autoregressive Visual Generation with Semantic-Detail Associated Token Prediction [77.06211178777939]
IAR2は、階層的なセマンティックディーテール合成プロセスを可能にする高度な自己回帰フレームワークである。
我々は、IAR2が自動回帰画像生成のための新しい最先端技術を設定し、ImageNet上で1.50のFIDを達成することを示す。
論文 参考訳(メタデータ) (2025-10-08T12:08:21Z) - Boosting Generative Image Modeling via Joint Image-Feature Synthesis [15.133906625258797]
低レベル画像潜在者を共同でモデル化するために拡散モデルを活用することで、ギャップをシームレスに橋渡しする新しい生成画像モデリングフレームワークを提案する。
我々の潜在セマンティック拡散アプローチは、純雑音からコヒーレントな画像-特徴対を生成することを学ぶ。
複雑な蒸留目的の必要をなくすことで、我々の統一設計は訓練を単純化し、強力な新しい推論戦略である表現誘導を解き放つ。
論文 参考訳(メタデータ) (2025-04-22T17:41:42Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [86.69947123512836]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - Nested Diffusion Models Using Hierarchical Latent Priors [23.605302440082994]
ネスト拡散モデル(ネスト拡散モデル)は、効率的で強力な階層的生成フレームワークである。
提案手法では,様々な意味レベルで潜伏変数を段階的に生成するために,一連の拡散モデルを用いる。
これらの潜伏変数を構築するために,事前学習した視覚エンコーダを用いて,強い意味的視覚表現を学習する。
論文 参考訳(メタデータ) (2024-12-08T16:13:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。