論文の概要: Evolve to Inspire: Novelty Search for Diverse Image Generation
- arxiv url: http://arxiv.org/abs/2511.00686v1
- Date: Sat, 01 Nov 2025 19:58:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.894239
- Title: Evolve to Inspire: Novelty Search for Diverse Image Generation
- Title(参考訳): Evolve to Inspire: Newty Search for Diverse Image Generation
- Authors: Alex Inch, Passawis Chaiyapattanaporn, Yuchen Zhu, Yuan Lu, Ting-Wen Ko, Davide Paglieri,
- Abstract要約: WANDERは1つの入力プロンプトから多様な画像を生成する新しい検索手法である。
多様な画像集合のセマンティック進化にLarge Language Model(LLM)を用い,CLIP埋め込みを用いて新規性を定量化する。
さらに、エミッタを適用して、プロンプト空間の異なる領域への探索を誘導し、生成した画像の多様性を高めることを示す。
- 参考スコア(独自算出の注目度): 6.040326113136291
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image diffusion models, while proficient at generating high-fidelity images, often suffer from limited output diversity, hindering their application in exploratory and ideation tasks. Existing prompt optimization techniques typically target aesthetic fitness or are ill-suited to the creative visual domain. To address this shortcoming, we introduce WANDER, a novelty search-based approach to generating diverse sets of images from a single input prompt. WANDER operates directly on natural language prompts, employing a Large Language Model (LLM) for semantic evolution of diverse sets of images, and using CLIP embeddings to quantify novelty. We additionally apply emitters to guide the search into distinct regions of the prompt space, and demonstrate that they boost the diversity of the generated images. Empirical evaluations using FLUX-DEV for generation and GPT-4o-mini for mutation demonstrate that WANDER significantly outperforms existing evolutionary prompt optimization baselines in diversity metrics. Ablation studies confirm the efficacy of emitters.
- Abstract(参考訳): テキスト・ツー・イメージの拡散モデルは、高忠実度画像の生成に熟練しているが、しばしば出力の多様性に悩まされ、探索的および概念的タスクにおけるそれらの応用を妨げる。
既存の即時最適化技術は一般的に美的フィットネスを目標とするか、創造的な視覚領域に不適当である。
この欠点に対処するために,単一入力プロンプトから多様な画像を生成する新しい検索手法であるWANDERを紹介する。
WANDERは、自然言語プロンプトを直接操作し、多様な画像セットのセマンティック進化にLarge Language Model (LLM)を使用し、CLIP埋め込みを使用してノベルティを定量化する。
さらに、エミッタを適用して、プロンプト空間の異なる領域への探索を誘導し、生成した画像の多様性を高めることを示す。
FLUX-DEVを生成に、GPT-4o-miniを突然変異に用いた経験的評価は、WANDERが既存の進化的プロンプト最適化基準を多様性メトリクスで著しく上回っていることを示している。
アブレーション研究はエミッターの有効性を裏付ける。
関連論文リスト
- Open Multimodal Retrieval-Augmented Factual Image Generation [86.34546873830152]
Factual Image Generation(FIG)のためのエージェント型オープンマルチモーダル検索拡張フレームワークORIGを紹介する。
ORIGは、Webから反復的にマルチモーダルなエビデンスを検索してフィルタリングし、洗練された知識をリッチなプロンプトにインクリメンタルに統合し、生成をガイドする。
実験により、ORIGは強いベースラインよりも事実整合性と全体的な画像品質を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-10-26T04:13:31Z) - VLM-Guided Adaptive Negative Prompting for Creative Generation [21.534474554320823]
創造的生成(Creative generation)とは、ユーザの意図を反映する新しい、驚き、価値あるサンプルを事前に想像できない形で合成することである。
本稿では,VLM-Guided Adaptive Negative-Promptingを提案する。
創造的ノベルティにおいて,計算オーバーヘッドの無視による一貫した向上を示す。
論文 参考訳(メタデータ) (2025-10-12T17:34:59Z) - EDITOR: Effective and Interpretable Prompt Inversion for Text-to-Image Diffusion Models [41.63451923844824]
本稿では,テキストから画像への拡散モデルに対するsysと呼ばれるプロンプトインバージョン手法を提案する。
本手法は,画像の類似性,テキストのアライメント,解釈可能性,一般化可能性の観点から,既存の手法よりも優れる。
論文 参考訳(メタデータ) (2025-06-03T16:44:15Z) - MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - On the Multi-modal Vulnerability of Diffusion Models [56.08923332178462]
本稿では,MMP-Attackによる拡散モデル生成結果の操作について,特定の接尾辞を元のプロンプトに付加することで提案する。
我々のゴールは、拡散モデルを誘導し、元のオブジェクトを同時に除去しながら特定のオブジェクトを生成することである。
論文 参考訳(メタデータ) (2024-02-02T12:39:49Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - DiffusionGPT: LLM-Driven Text-to-Image Generation System [39.15054464137383]
DiffusionGPTは、様々な種類のプロンプトをシームレスに調整し、ドメインエキスパートモデルを統合できる統一された生成システムを提供する。
LLMはプロンプトを解析し、Tree-of-Thoughtを使用して適切なモデルの選択をガイドし、入力制約を緩和する。
本稿では,Advantage Databasesを紹介し,Tree-of-Thoughtは人間のフィードバックに富み,モデル選択プロセスと人間の好みを一致させる。
論文 参考訳(メタデータ) (2024-01-18T15:30:58Z) - Diverse Diffusion: Enhancing Image Diversity in Text-to-Image Generation [0.0]
画像の多様性をジェンダーや民族を超えて向上させる方法であるDiverse Diffusionを紹介した。
私たちのアプローチは、より包括的で代表的なAI生成アートの作成に寄与します。
論文 参考訳(メタデータ) (2023-10-19T08:48:23Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - Few-shot Image Generation via Masked Discrimination [20.998032566820907]
少ないショット画像生成は、限られたデータで高品質で多彩な画像を生成することを目的としている。
現代のGANでは、ほんの数枚の画像で訓練された場合、過度な適合を避けることは困難である。
本研究は,マスク付き識別による少数ショットGAN適応を実現するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-27T06:02:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。