論文の概要: PromptMoG: Enhancing Diversity in Long-Prompt Image Generation via Prompt Embedding Mixture-of-Gaussian Sampling
- arxiv url: http://arxiv.org/abs/2511.20251v1
- Date: Tue, 25 Nov 2025 12:25:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.45042
- Title: PromptMoG: Enhancing Diversity in Long-Prompt Image Generation via Prompt Embedding Mixture-of-Gaussian Sampling
- Title(参考訳): PromptMoG: Prompt Embedding Mixture-of-Gaussian Smplingによる長距離画像生成における多様性向上
- Authors: Bo-Kai Ruan, Teng-Fang Hsiao, Ling Lo, Yi-Lun Wu, Hong-Han Shuai,
- Abstract要約: ロングプロンプトはリッチな内容、空間的、スタイリスティックな情報をエンコードし、忠実さを高めるが多様性を抑える。
本稿では, 組込み空間における混合ガウス語からの埋め込みを抽出し, セマンティクスを保存しながら多様性を高めるPromptMoGを提案する。
SD3.5-Large, Flux.1-Krea-Dev, CogView4, Qwen-Image という4つの最先端モデルの実験では, PromptMoG がセマンティックドリフトを伴わない長周期生成の多様性を一貫して改善していることが示されている。
- 参考スコア(独自算出の注目度): 29.17316505041238
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in text-to-image (T2I) generation have achieved remarkable visual outcomes through large-scale rectified flow models. However, how these models behave under long prompts remains underexplored. Long prompts encode rich content, spatial, and stylistic information that enhances fidelity but often suppresses diversity, leading to repetitive and less creative outputs. In this work, we systematically study this fidelity-diversity dilemma and reveal that state-of-the-art models exhibit a clear drop in diversity as prompt length increases. To enable consistent evaluation, we introduce LPD-Bench, a benchmark designed for assessing both fidelity and diversity in long-prompt generation. Building on our analysis, we develop a theoretical framework that increases sampling entropy through prompt reformulation and propose a training-free method, PromptMoG, which samples prompt embeddings from a Mixture-of-Gaussians in the embedding space to enhance diversity while preserving semantics. Extensive experiments on four state-of-the-art models, SD3.5-Large, Flux.1-Krea-Dev, CogView4, and Qwen-Image, demonstrate that PromptMoG consistently improves long-prompt generation diversity without semantic drifting.
- Abstract(参考訳): 近年のテキスト・トゥ・イメージ(T2I)生成は,大規模な整流モデルにより目覚しい結果を得た。
しかし、これらのモデルが長いプロンプトの下でどのように振る舞うかは未解明のままである。
ロングプロンプトはリッチな内容、空間的、スタイリスティックな情報をエンコードし、フィデリティを高めるが、しばしば多様性を抑える。
本研究では, この多様性ジレンマを系統的に研究し, 即時長の増加に伴い, 最先端のモデルが明らかに多様性の低下を示すことを示した。
連続的な評価を可能にするために,長周期生成における忠実度と多様性の両方を評価するためのベンチマークであるLPD-Benchを導入する。
提案手法は,提案手法を改良し,サンプルエントロピーを増大させる理論フレームワークであるPromptMoGを提案する。
SD3.5-Large, Flux.1-Krea-Dev, CogView4, Qwen-Imageの4つの最先端モデルに対する大規模な実験は, PromptMoGがセマンティックドリフトを伴わない長周期生成の多様性を一貫して改善することを示した。
関連論文リスト
- Training-Free Generation of Diverse and High-Fidelity Images via Prompt Semantic Space Optimization [50.5332987313297]
本稿では,トレーニングフリーでモデルに依存しないモジュールであるToken-Prompt Embedding Space Optimization (TPSO)を提案する。
TPSOは、トークン埋め込み空間の未表現領域を探索するために学習可能なパラメータを導入し、学習された分布の強いモードからサンプルを繰り返し生成する傾向を減少させる。
MS-COCOと3つの拡散バックボーンの実験では、TPSOは画像品質を犠牲にすることなく、生成多様性を著しく向上し、ベースライン性能を1.10から4.18ポイントに改善した。
論文 参考訳(メタデータ) (2025-11-25T00:42:09Z) - Evolve to Inspire: Novelty Search for Diverse Image Generation [6.040326113136291]
WANDERは1つの入力プロンプトから多様な画像を生成する新しい検索手法である。
多様な画像集合のセマンティック進化にLarge Language Model(LLM)を用い,CLIP埋め込みを用いて新規性を定量化する。
さらに、エミッタを適用して、プロンプト空間の異なる領域への探索を誘導し、生成した画像の多様性を高めることを示す。
論文 参考訳(メタデータ) (2025-11-01T19:58:07Z) - Open Multimodal Retrieval-Augmented Factual Image Generation [86.34546873830152]
Factual Image Generation(FIG)のためのエージェント型オープンマルチモーダル検索拡張フレームワークORIGを紹介する。
ORIGは、Webから反復的にマルチモーダルなエビデンスを検索してフィルタリングし、洗練された知識をリッチなプロンプトにインクリメンタルに統合し、生成をガイドする。
実験により、ORIGは強いベースラインよりも事実整合性と全体的な画像品質を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-10-26T04:13:31Z) - Towards Better & Faster Autoregressive Image Generation: From the Perspective of Entropy [23.573364375818553]
本研究は,現在の自己回帰画像生成モデルにおけるサンプリング問題を再検討する。
画像トークンは、テキストトークンとは異なり、低い情報密度と一様でない空間分布を示す。
本稿では,高速な合成速度で自己回帰生成品質を向上させるエントロピーインフォームデコード戦略を提案する。
論文 参考訳(メタデータ) (2025-10-10T05:26:11Z) - Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and Generation [63.50827603618498]
マルチモーダル理解と生成のための統一型マスク付き拡散モデル(MDM)であるLavida-Oを提案する。
Lavida-Oは、画像レベルの理解、オブジェクトのグラウンド化、画像編集、高解像度のテキスト・ツー・イメージ合成を可能にする単一のフレームワークを提供する。
Lavida-Oは、RefCOCOオブジェクトグラウンド、GenEvalテキスト画像生成、ImgEdit画像編集など、幅広いベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-09-23T17:05:46Z) - SGD-Mix: Enhancing Domain-Specific Image Classification with Label-Preserving Data Augmentation [0.6554326244334868]
本稿では,多様性,忠実さ,ラベルの明確さを明確に拡張プロセスに統合する新しい枠組みを提案する。
提案手法では,前景のセマンティクスを保存し,背景の多様性を充実させ,ラベルの一貫性を確保するために,塩分濃度誘導混合と微調整拡散モデルを用いている。
論文 参考訳(メタデータ) (2025-05-17T03:51:18Z) - Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - Kaleido Diffusion: Improving Conditional Diffusion Models with Autoregressive Latent Modeling [49.41822427811098]
本稿では, 自己回帰性潜伏前駆体を組み込むことにより, サンプルの多様性を高める新しいアプローチであるKaleidoを紹介する。
Kaleidoは、オリジナルのキャプションをエンコードして潜伏変数を生成する自動回帰言語モデルを統合する。
そこで我々は,Kaleidoが生成した潜在変数のガイダンスに忠実に従属していることを示し,画像生成過程を効果的に制御し,指示する能力を示す。
論文 参考訳(メタデータ) (2024-05-31T17:41:11Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。