論文の概要: Training-Free Generation of Diverse and High-Fidelity Images via Prompt Semantic Space Optimization
- arxiv url: http://arxiv.org/abs/2511.19811v1
- Date: Tue, 25 Nov 2025 00:42:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.217431
- Title: Training-Free Generation of Diverse and High-Fidelity Images via Prompt Semantic Space Optimization
- Title(参考訳): プロンプトセマンティック空間最適化による多次元・高忠実画像の学習自由生成
- Authors: Debin Meng, Chen Jin, Zheng Gao, Yanran Li, Ioannis Patras, Georgios Tzimiropoulos,
- Abstract要約: 本稿では,トレーニングフリーでモデルに依存しないモジュールであるToken-Prompt Embedding Space Optimization (TPSO)を提案する。
TPSOは、トークン埋め込み空間の未表現領域を探索するために学習可能なパラメータを導入し、学習された分布の強いモードからサンプルを繰り返し生成する傾向を減少させる。
MS-COCOと3つの拡散バックボーンの実験では、TPSOは画像品質を犠牲にすることなく、生成多様性を著しく向上し、ベースライン性能を1.10から4.18ポイントに改善した。
- 参考スコア(独自算出の注目度): 50.5332987313297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image diversity remains a fundamental challenge for text-to-image diffusion models. Low-diversity models tend to generate repetitive outputs, increasing sampling redundancy and hindering both creative exploration and downstream applications. A primary cause is that generation often collapses toward a strong mode in the learned distribution. Existing attempts to improve diversity, such as noise resampling, prompt rewriting, or steering-based guidance, often still collapse to dominant modes or introduce distortions that degrade image quality. In light of this, we propose Token-Prompt embedding Space Optimization (TPSO), a training-free and model-agnostic module. TPSO introduces learnable parameters to explore underrepresented regions of the token embedding space, reducing the tendency of the model to repeatedly generate samples from strong modes of the learned distribution. At the same time, the prompt-level space provides a global semantic constraint that regulates distribution shifts, preventing quality degradation while maintaining high fidelity. Extensive experiments on MS-COCO and three diffusion backbones show that TPSO significantly enhances generative diversity, improving baseline performance from 1.10 to 4.18 points, without sacrificing image quality. Code will be released upon acceptance.
- Abstract(参考訳): 画像の多様性は、テキストから画像への拡散モデルにおける根本的な課題である。
低多様性モデルは繰り返し出力を生成し、サンプリング冗長性を高め、創造的な探索と下流のアプリケーションの両方を妨げる傾向がある。
主な原因は、学習された分布において、生成が強いモードに向かって崩壊することが多いことである。
ノイズリサンプリング、プロンプトリライト、ステアリングに基づくガイダンスなどの既存の試みは、しばしば支配的なモードに崩壊するか、画像の品質を低下させる歪みを導入する。
そこで本研究では,トレーニングフリーでモデルに依存しないモジュールであるToken-Prompt Embedding Space Optimization (TPSO)を提案する。
TPSOは、トークン埋め込み空間の未表現領域を探索するために学習可能なパラメータを導入し、学習された分布の強いモードからサンプルを繰り返し生成する傾向を減少させる。
同時に、プロンプトレベルの空間は、分布シフトを規制し、高い忠実性を維持しながら品質劣化を防止するグローバルな意味制約を提供する。
MS-COCOと3つの拡散バックボーンの大規模な実験により、TPSOは画像品質を犠牲にすることなく、遺伝子発現の多様性を著しく向上し、ベースライン性能を1.10から4.18ポイントに改善することが示された。
コードは受理時にリリースされる。
関連論文リスト
- PromptMoG: Enhancing Diversity in Long-Prompt Image Generation via Prompt Embedding Mixture-of-Gaussian Sampling [29.17316505041238]
ロングプロンプトはリッチな内容、空間的、スタイリスティックな情報をエンコードし、忠実さを高めるが多様性を抑える。
本稿では, 組込み空間における混合ガウス語からの埋め込みを抽出し, セマンティクスを保存しながら多様性を高めるPromptMoGを提案する。
SD3.5-Large, Flux.1-Krea-Dev, CogView4, Qwen-Image という4つの最先端モデルの実験では, PromptMoG がセマンティックドリフトを伴わない長周期生成の多様性を一貫して改善していることが示されている。
論文 参考訳(メタデータ) (2025-11-25T12:25:41Z) - Hawk: Leveraging Spatial Context for Faster Autoregressive Text-to-Image Generation [87.00172597953228]
投機的復号化は、品質を損なうことなくテキスト生成を加速させる可能性を示している。
我々は、画像の空間構造を利用して投機モデルをより正確で効率的な予測へと導く新しいアプローチであるHawkを紹介する。
複数のテキストと画像のベンチマークの実験結果は、標準的なARモデルよりも1.71倍のスピードアップを示している。
論文 参考訳(メタデータ) (2025-10-29T17:43:31Z) - ImageReFL: Balancing Quality and Diversity in Human-Aligned Diffusion Models [2.712399554918533]
人間のフィードバックに基づいてトレーニングされたモデルを用いた逆向きの微調整は、アライメントを改善するが、しばしば多様性を損なう。
生成過程の後半にのみ報酬調整拡散モデルを適用する新しいサンプリング戦略であるテキスト組換え生成を導入する。
第2に,実画像のトレーニングによる画質の低下を最小限に抑えながら,画像の多様性を向上させる微調整手法である textitImageReFL を提案する。
論文 参考訳(メタデータ) (2025-05-28T16:45:07Z) - Boosting Generative Image Modeling via Joint Image-Feature Synthesis [15.133906625258797]
低レベル画像潜在者を共同でモデル化するために拡散モデルを活用することで、ギャップをシームレスに橋渡しする新しい生成画像モデリングフレームワークを提案する。
我々の潜在セマンティック拡散アプローチは、純雑音からコヒーレントな画像-特徴対を生成することを学ぶ。
複雑な蒸留目的の必要をなくすことで、我々の統一設計は訓練を単純化し、強力な新しい推論戦略である表現誘導を解き放つ。
論文 参考訳(メタデータ) (2025-04-22T17:41:42Z) - Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - Few-Shot Image Generation by Conditional Relaxing Diffusion Inversion [37.18537753482751]
条件拡散緩和インバージョン(CRDI)は、合成画像生成における分布の多様性を高めるために設計されている。
CRDIはいくつかのサンプルに基づいた微調整を頼りにしていない。
ターゲットの画像インスタンスの再構築と、数ショットの学習による多様性の拡大に重点を置いている。
論文 参考訳(メタデータ) (2024-07-09T21:58:26Z) - DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior [70.46245698746874]
DiffBIRは、視覚の異なる画像復元タスクを処理できる一般的な修復パイプラインである。
DiffBIRは, ブラインド画像復元問題を, 1) 劣化除去: 画像に依存しない内容の除去; 2) 情報再生: 失われた画像内容の生成の2段階に分離する。
第1段階では, 修復モジュールを用いて劣化を除去し, 高忠実度復元結果を得る。
第2段階では、潜伏拡散モデルの生成能力を活用して現実的な詳細を生成するIRControlNetを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:11:52Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。