論文の概要: LLM4GEN: Leveraging Semantic Representation of LLMs for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2407.00737v2
- Date: Tue, 27 Aug 2024 08:33:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 18:59:20.281249
- Title: LLM4GEN: Leveraging Semantic Representation of LLMs for Text-to-Image Generation
- Title(参考訳): LLM4GEN:テキスト・画像生成のためのLLMのセマンティック表現の活用
- Authors: Mushui Liu, Yuhang Ma, Yang Zhen, Jun Dan, Yunlong Yu, Zeng Zhao, Zhipeng Hu, Bai Liu, Changjie Fan,
- Abstract要約: 我々はtextbfLLM4GEN という新しいフレームワークを提案する。
特別に設計されたクロスアダプタモジュール(CAM)は、テキスト・ツー・イメージ・モデルのオリジナルのテキスト機能とLLM機能を統合する。
7000ドルの高密度プロンプトを含むDensePromptsは、テキスト・画像生成タスクの包括的な評価を提供する。
- 参考スコア(独自算出の注目度): 30.897935761304034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have exhibited substantial success in text-to-image generation. However, they often encounter challenges when dealing with complex and dense prompts involving multiple objects, attribute binding, and long descriptions. In this paper, we propose a novel framework called \textbf{LLM4GEN}, which enhances the semantic understanding of text-to-image diffusion models by leveraging the representation of Large Language Models (LLMs). It can be seamlessly incorporated into various diffusion models as a plug-and-play component. A specially designed Cross-Adapter Module (CAM) integrates the original text features of text-to-image models with LLM features, thereby enhancing text-to-image generation. Additionally, to facilitate and correct entity-attribute relationships in text prompts, we develop an entity-guided regularization loss to further improve generation performance. We also introduce DensePrompts, which contains $7,000$ dense prompts to provide a comprehensive evaluation for the text-to-image generation task. Experiments indicate that LLM4GEN significantly improves the semantic alignment of SD1.5 and SDXL, demonstrating increases of 9.69\% and 12.90\% in color on T2I-CompBench, respectively. Moreover, it surpasses existing models in terms of sample quality, image-text alignment, and human evaluation.
- Abstract(参考訳): 拡散モデルはテキスト・画像生成において大きな成功を収めている。
しかしながら、複数のオブジェクト、属性バインディング、長い記述を含む複雑で高密度なプロンプトを扱う場合、しばしば課題に遭遇する。
本稿では,大規模言語モデル(LLM)の表現を活用することで,テキストから画像への拡散モデルのセマンティック理解を深めるフレームワークである「textbf{LLM4GEN}」を提案する。
様々な拡散モデルにプラグイン・アンド・プレイコンポーネントとしてシームレスに組み込むことができる。
特別に設計されたクロスアダプタモジュール(CAM)は、テキスト・ツー・イメージ・モデルのオリジナルテキスト機能とLLM機能を統合することで、テキスト・ツー・イメージ・ジェネレーションを向上する。
さらに、テキストプロンプトにおけるエンティティ-属性関係を容易にし、補正するために、生成性能をさらに向上させるために、エンティティ-ガイダンス正則化損失を開発する。
また、DensePromptsを導入し、7000ドルの高密度なプロンプトを組み、テキスト・画像生成タスクの総合的な評価を提供する。
実験の結果、LSM4GENはSD1.5とSDXLのセマンティックアライメントを著しく改善し、それぞれT2I-CompBenchの色の9.69\%と12.90\%の増加を示すことが示された。
さらに、サンプル品質、画像テキストアライメント、人的評価の点で、既存のモデルを上回っている。
関連論文リスト
- TheaterGen: Character Management with LLM for Consistent Multi-turn Image Generation [44.740794326596664]
TheaterGenは、大規模な言語モデル(LLM)とテキスト・ツー・イメージ(T2I)モデルを統合した、トレーニング不要のフレームワークである。
このフレームワーク内では、LLMは"Screenwriter"として機能し、マルチターンインタラクションを行い、標準化されたプロンプトブックを生成し管理する。
プロンプトブックとキャラクタイメージの効果的な管理により、StaceGenは合成画像のセマンティックとコンテキスト整合性を大幅に改善する。
論文 参考訳(メタデータ) (2024-04-29T17:58:14Z) - ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment [20.868216061750402]
LLM(Large Language Models)とテキスト・画像拡散モデルを組み合わせた高能率大言語モデル適応器 ELLA を導入する。
提案手法は, 分割過程の異なる段階における意味的特徴に適応し, サンプリングタイムステップよりも長大かつ複雑なプロンプトを解釈する拡散モデルを支援する。
濃密なプロンプトにおけるテキスト・ツー・イメージのモデルを評価するために、1Kの濃密なプロンプトからなる挑戦的なベンチマークを導入する。
論文 参考訳(メタデータ) (2024-03-08T08:08:10Z) - Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs [77.86214400258473]
トレーニング不要なテキスト・画像生成/編集フレームワークであるRecaption, Plan and Generate(RPG)を提案する。
RPGは、マルチモーダルLLMの強力な連鎖推論能力を活用し、テキストから画像への拡散モデルの合成性を高める。
本フレームワークはMLLMアーキテクチャとの広範な互換性を示す。
論文 参考訳(メタデータ) (2024-01-22T06:16:29Z) - LLMGA: Multimodal Large Language Model based Generation Assistant [53.150283805515926]
画像生成と編集を支援するマルチモーダル大規模言語モデルベース生成アシスタント(LLMGA)を提案する。
我々はMLLMを訓練し、画像生成と編集の特性を把握し、詳細なプロンプトを生成する。
広範な結果から、LLMGAは将来的な生成と編集機能を備えており、より柔軟で拡張性の高いアプリケーションを可能にすることが示されている。
論文 参考訳(メタデータ) (2023-11-27T13:37:26Z) - Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。
これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。
コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2023-11-24T05:17:01Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。