論文の概要: VLM-Guided Adaptive Negative Prompting for Creative Generation
- arxiv url: http://arxiv.org/abs/2510.10715v1
- Date: Sun, 12 Oct 2025 17:34:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.082988
- Title: VLM-Guided Adaptive Negative Prompting for Creative Generation
- Title(参考訳): VLM-Guided Adaptive Negative Prompting for Creative Generation (特集 VLM-Guided Adaptive Negative Prompting)
- Authors: Shelly Golan, Yotam Nitzan, Zongze Wu, Or Patashnik,
- Abstract要約: 創造的生成(Creative generation)とは、ユーザの意図を反映する新しい、驚き、価値あるサンプルを事前に想像できない形で合成することである。
本稿では,VLM-Guided Adaptive Negative-Promptingを提案する。
創造的ノベルティにおいて,計算オーバーヘッドの無視による一貫した向上を示す。
- 参考スコア(独自算出の注目度): 21.534474554320823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Creative generation is the synthesis of new, surprising, and valuable samples that reflect user intent yet cannot be envisioned in advance. This task aims to extend human imagination, enabling the discovery of visual concepts that exist in the unexplored spaces between familiar domains. While text-to-image diffusion models excel at rendering photorealistic scenes that faithfully match user prompts, they still struggle to generate genuinely novel content. Existing approaches to enhance generative creativity either rely on interpolation of image features, which restricts exploration to predefined categories, or require time-intensive procedures such as embedding optimization or model fine-tuning. We propose VLM-Guided Adaptive Negative-Prompting, a training-free, inference-time method that promotes creative image generation while preserving the validity of the generated object. Our approach utilizes a vision-language model (VLM) that analyzes intermediate outputs of the generation process and adaptively steers it away from conventional visual concepts, encouraging the emergence of novel and surprising outputs. We evaluate creativity through both novelty and validity, using statistical metrics in the CLIP embedding space. Through extensive experiments, we show consistent gains in creative novelty with negligible computational overhead. Moreover, unlike existing methods that primarily generate single objects, our approach extends to complex scenarios, such as generating coherent sets of creative objects and preserving creativity within elaborate compositional prompts. Our method integrates seamlessly into existing diffusion pipelines, offering a practical route to producing creative outputs that venture beyond the constraints of textual descriptions.
- Abstract(参考訳): 創造的生成(Creative generation)とは、ユーザの意図を反映する新しい、驚き、価値あるサンプルを事前に想像できない形で合成することである。
この課題は、よく知られたドメイン間の未探索空間に存在する視覚概念の発見を可能にする、人間の想像力を拡大することを目的としている。
テキストと画像の拡散モデルは、ユーザのプロンプトに忠実にマッチするフォトリアリスティックなシーンのレンダリングに優れていますが、それでも真に新しいコンテンツを生成するのに苦労しています。
生成的創造性を高める既存のアプローチは、事前に定義されたカテゴリへの探索を制限する画像特徴の補間に依存するか、あるいは、埋め込み最適化やモデル微調整のような時間集約的な手順を必要とする。
本稿では,VLM-Guided Adaptive Negative-Promptingを提案する。
提案手法では, 生成過程の中間出力を分析し, 従来の視覚概念から切り離し, 新規で驚くべき出力の出現を促す視覚言語モデル(VLM)を用いる。
CLIP埋め込み空間における統計的指標を用いて,新規性と妥当性の両面から創造性を評価する。
広範な実験を通じて、創造的ノベルティと無視可能な計算オーバーヘッドが一貫した向上を示す。
さらに、主に単一オブジェクトを生成する既存の方法とは異なり、我々のアプローチは、コヒーレントな創造オブジェクトの生成や、精巧な構成プロンプト内での創造性維持など、複雑なシナリオにまで及んでいる。
提案手法は既存の拡散パイプラインにシームレスに統合され,テキスト記述の制約を超えて創造的な出力を生成するための実践的な経路を提供する。
関連論文リスト
- Cooking Up Creativity: Enhancing LLM Creativity through Structured Recombination [46.79423188943526]
本稿では,LLM(Large Language Models)の創造性を高める新しいアプローチを提案する。
自然言語と構造化表現の翻訳にLLMを適用し,その中心となる創造的飛躍を行う。
我々は、創造的なレシピを生成するモデルであるDishCOVERを用いて、料理分野における我々のアプローチを実証する。
論文 参考訳(メタデータ) (2025-04-29T11:13:06Z) - Probing and Inducing Combinational Creativity in Vision-Language Models [52.76981145923602]
VLM(Vision-Language Models)の最近の進歩は、それらのアウトプットが組合せの創造性を反映しているかという議論を引き起こしている。
本稿では,創造的プロセスを3つのレベルに分解するIEIフレームワークを提案する。
このフレームワークを検証するために、IEIフレームワークに従って注釈付けされた666人のアーティストによる視覚マッシュアップの高品質データセットであるCreativeMashupをキュレートする。
論文 参考訳(メタデータ) (2025-04-17T17:38:18Z) - Redefining <Creative> in Dictionary: Towards an Enhanced Semantic Understanding of Creative Generation [39.93527514513576]
Creative'' は人間と拡散モデルの両方にとって本質的に抽象的な概念である。
現在の手法は、創造的な効果を達成するために参照プロンプトやイメージに大きく依存している。
CreTokを紹介します。これは、新しいトークンであるtexttCreTok>として、創造性を再定義することで、拡散モデルにメタ創造性をもたらすものです。
コードはhttps://github.com/fu-feng/CreTok.comで公開される。
論文 参考訳(メタデータ) (2024-10-31T17:19:03Z) - ConceptLab: Creative Concept Generation using VLM-Guided Diffusion Prior
Constraints [56.824187892204314]
我々は創造的なテキスト・画像生成の課題を提示し、幅広いカテゴリの新しいメンバーを創り出そうとする。
本稿では, 先行拡散の出力空間上での最適化プロセスとして, 創造的生成問題を定式化できることを示す。
我々は、最適化問題に新たな制約を適応的に付加する質問応答型視覚言語モデル(VLM)を導入し、よりユニークな生成物を発見するようモデルに促す。
論文 参考訳(メタデータ) (2023-08-03T17:04:41Z) - Towards Creativity Characterization of Generative Models via Group-based
Subset Scanning [64.6217849133164]
創造的プロセスを特定し,定量化し,特徴付けるグループベースサブセットスキャンを提案する。
創造的なサンプルは、データセット全体にわたる通常のサンプルや非創造的なサンプルよりも大きな異常のサブセットを生成する。
論文 参考訳(メタデータ) (2022-03-01T15:07:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。