論文の概要: Diverse Text-to-Image Generation via Contrastive Noise Optimization
- arxiv url: http://arxiv.org/abs/2510.03813v1
- Date: Sat, 04 Oct 2025 13:51:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.27105
- Title: Diverse Text-to-Image Generation via Contrastive Noise Optimization
- Title(参考訳): コントラスト雑音最適化による多言語テキスト・画像生成
- Authors: Byungjun Kim, Soobin Um, Jong Chul Ye,
- Abstract要約: テキスト・ツー・イメージ(T2I)拡散モデルは高忠実度画像の生成において顕著な性能を示した。
既存のアプローチは通常、推論中に中間の潜伏状態やテキスト条件を最適化する。
本稿では,多様性問題に異なる視点から対処する簡易かつ効果的な手法であるContrastive Noise Optimizationを紹介する。
- 参考スコア(独自算出の注目度): 60.48914865049489
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image (T2I) diffusion models have demonstrated impressive performance in generating high-fidelity images, largely enabled by text-guided inference. However, this advantage often comes with a critical drawback: limited diversity, as outputs tend to collapse into similar modes under strong text guidance. Existing approaches typically optimize intermediate latents or text conditions during inference, but these methods deliver only modest gains or remain sensitive to hyperparameter tuning. In this work, we introduce Contrastive Noise Optimization, a simple yet effective method that addresses the diversity issue from a distinct perspective. Unlike prior techniques that adapt intermediate latents, our approach shapes the initial noise to promote diverse outputs. Specifically, we develop a contrastive loss defined in the Tweedie data space and optimize a batch of noise latents. Our contrastive optimization repels instances within the batch to maximize diversity while keeping them anchored to a reference sample to preserve fidelity. We further provide theoretical insights into the mechanism of this preprocessing to substantiate its effectiveness. Extensive experiments across multiple T2I backbones demonstrate that our approach achieves a superior quality-diversity Pareto frontier while remaining robust to hyperparameter choices.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルは高忠実度画像の生成において顕著な性能を示しており、主にテキスト誘導推論によって実現されている。
しかし、この利点はしばしば重大な欠点がある: 限られた多様性、出力が強いテキストガイダンスの下で同様のモードに崩壊する傾向があるためである。
既存のアプローチは通常、推論中に中間の潜伏状態やテキスト条件を最適化するが、これらの手法は緩やかな利得しか与えず、ハイパーパラメータチューニングに敏感である。
本稿では,多様性問題に対処する簡易かつ効果的な手法であるContrastive Noise Optimizationを紹介する。
中間潜水剤を適応させる従来の手法とは異なり、我々の手法は様々な出力を促進するために初期ノイズを形作る。
具体的には、Tweedieデータ空間で定義されたコントラスト損失を開発し、ノイズラテントのバッチを最適化する。
対照的な最適化では、バッチ内のインスタンスをリプライして、多様性を最大化しつつ、参照サンプルに固定し、忠実さを保ちます。
さらに、この前処理のメカニズムに関する理論的知見を提供し、その効果を裏付ける。
複数のT2Iバックボーンにまたがる広範囲な実験により、我々のアプローチは、高パラメータ選択に頑健でありながら、優れた品質・多様性のParetoフロンティアを実現することを示した。
関連論文リスト
- SPREAD: Sampling-based Pareto front Refinement via Efficient Adaptive Diffusion [0.8594140167290097]
SPREADは拡散確率モデル(DDPM)に基づく生成フレームワークである
決定空間からサンプリングされた点上の条件拡散過程を学習する。
適応的多重勾配降下インスパイアされた更新を高速収束に利用するサンプリングスキームにより、候補を洗練する。
論文 参考訳(メタデータ) (2025-09-25T12:09:37Z) - Investigating the Invertibility of Multimodal Latent Spaces: Limitations of Optimization-Based Methods [0.0]
本稿では,タスク固有AI(Artificial Intelligence)モデルにおけるマルチモーダル潜在空間の逆機能とより広範な有用性について検討する。
我々の中心的な仮説は、最適化はモデルを逆問題へと導くことができるが、それらの多モード潜在空間は意味論的かつ知覚的コヒーレントな逆写像を一貫してサポートしない。
我々の研究は、真に意味的にリッチで可逆なマルチモーダル潜在空間を開発するためのさらなる研究の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-07-30T18:19:11Z) - Noise Diffusion for Enhancing Semantic Faithfulness in Text-to-Image Synthesis [9.11767497956649]
本稿では,大規模視覚言語モデルの言語理解能力を活用して,初期雑音ラテントの最適化を導くことを提案する。
本研究では,ノイズ拡散プロセスを導入し,雑音を更新し,分布の整合性を保ちながら意味的に忠実な画像を生成する。
実験により,様々な拡散モデル間のセマンティックアライメントを一貫して強化し,本フレームワークの有効性と適応性を示した。
論文 参考訳(メタデータ) (2024-11-25T15:40:47Z) - Semantic-Aligned Adversarial Evolution Triangle for High-Transferability Vision-Language Attack [51.16384207202798]
視覚言語事前学習モデルは多モーダル逆例(AE)に対して脆弱である
従来のアプローチでは、画像とテキストのペアを拡大して、敵対的なサンプル生成プロセス内での多様性を高めている。
本稿では, 敵の多様性を高めるために, クリーン, ヒストリ, および現在の敵の例からなる敵の進化三角形からのサンプリングを提案する。
論文 参考訳(メタデータ) (2024-11-04T23:07:51Z) - OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。
本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。
提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-06-14T13:16:18Z) - Digging into contrastive learning for robust depth estimation with diffusion models [55.62276027922499]
そこで我々はD4RDと呼ばれる新しい頑健な深度推定法を提案する。
複雑な環境での性能劣化を軽減するために、拡散モデルに適した独自のコントラスト学習モードを備えている。
実験では、D4RDは合成汚職データセットや現実世界の気象条件に関する最先端のソリューションを超越している。
論文 参考訳(メタデータ) (2024-04-15T14:29:47Z) - SimAC: A Simple Anti-Customization Method for Protecting Face Privacy against Text-to-Image Synthesis of Diffusion Models [16.505593270720034]
本稿では,既存のアンチ・カストマイゼーション手法とシームレスに統合された最適時間ステップを適応的に探索する手法を提案する。
我々のアプローチはアイデンティティの破壊を著しく増加させ、それによってユーザのプライバシと著作権を保護する。
論文 参考訳(メタデータ) (2023-12-13T03:04:22Z) - OT-Attack: Enhancing Adversarial Transferability of Vision-Language
Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。
近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。
本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文 参考訳(メタデータ) (2023-12-07T16:16:50Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。