論文の概要: Redefining in Dictionary: Towards an Enhanced Semantic Understanding of Creative Generation
- arxiv url: http://arxiv.org/abs/2410.24160v2
- Date: Wed, 20 Nov 2024 10:22:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:17:04.180366
- Title: Redefining <Creative> in Dictionary: Towards an Enhanced Semantic Understanding of Creative Generation
- Title(参考訳): 辞書における<Creative>を再定義する:創造的生成のセマンティック理解の強化を目指して
- Authors: Fu Feng, Yucheng Xie, Xu Yang, Jing Wang, Xin Geng,
- Abstract要約: 現在の手法は、創造的な効果を達成するために参照プロンプトやイメージに大きく依存している。
CreTokを紹介します。これは、新しいトークンとして「創造性を再定義することで、拡散モデルにメタ創造性をもたらすものです。
CreTokは、多様なテキストペアを反復的にサンプリングすることで、そのような再定義を実現する。
- 参考スコア(独自算出の注目度): 39.93527514513576
- License:
- Abstract: ``Creative'' remains an inherently abstract concept for both humans and diffusion models. While text-to-image (T2I) diffusion models can easily generate out-of-domain concepts like ``a blue banana'', they struggle with generating combinatorial objects such as ``a creative mixture that resembles a lettuce and a mantis'', due to difficulties in understanding the semantic depth of ``creative''. Current methods rely heavily on synthesizing reference prompts or images to achieve a creative effect, typically requiring retraining for each unique creative output -- a process that is computationally intensive and limits practical applications. To address this, we introduce CreTok, which brings meta-creativity to diffusion models by redefining ``creative'' as a new token, \texttt{<CreTok>}, thus enhancing models' semantic understanding for combinatorial creativity. CreTok achieves such redefinition by iteratively sampling diverse text pairs from our proposed CangJie dataset to form adaptive prompts and restrictive prompts, and then optimizing the similarity between their respective text embeddings. Extensive experiments demonstrate that \texttt{<CreTok>} enables the universal and direct generation of combinatorial creativity across diverse concepts without additional training (4s vs. BASS's 2400s per image), achieving state-of-the-art performance with improved text-image alignment ($\uparrow$0.03 in VQAScore) and higher human preference ratings ($\uparrow$0.009 in PickScore and $\uparrow$0.169 in ImageReward). Further evaluations with GPT-4o and user studies underscore CreTok's strengths in advancing creative generation.
- Abstract(参考訳): `Creative''は人間と拡散モデルの両方にとって本質的に抽象的な概念である。
テキスト・トゥ・イメージ (T2I) 拡散モデルは 'a blue banana'' のようなドメイン外の概念を容易に生成できるが、''retuce と mantis'' のような合成オブジェクトの生成に苦労する。
現在の手法は、創造的な効果を達成するために参照プロンプトやイメージの合成に大きく依存しており、典型的には、それぞれの独特な創造的なアウトプットに再トレーニングを必要とする。
これを解決するために、CreTokを導入し、 ``creative'' を新しいトークンである \texttt{<CreTok>} として再定義することで、拡散モデルにメタ創造性をもたらす。
CreTokは、提案したCangJieデータセットから多様なテキストペアを反復的にサンプリングして、適応的なプロンプトと制限的なプロンプトを生成し、各テキスト埋め込み間の類似性を最適化することで、そのような再定義を実現する。
広範な実験により、 \texttt{<CreTok>} は、追加のトレーニングなしで様々な概念にまたがる組合せ創造性(BASSのイメージあたり4s vs. BASSの2400s)の普遍的かつ直接的な生成を可能にし、テキストイメージアライメントの改善による最先端のパフォーマンス(VQAScoreでは0.03ドル)と高い人間の嗜好評価(PickScoreでは0.009ドル、ImageRewardでは0.169ドル)を実現している。
GPT-4oとユーザスタディによるさらなる評価は、創造的生成の推進におけるCreTokの強みを浮き彫りにした。
関連論文リスト
- ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - DiffChat: Learning to Chat with Text-to-Image Synthesis Models for
Interactive Image Creation [40.478839423995296]
DiffChatは、対話型画像生成のための、インプット・アズ・インプット・テキスト・トゥ・イメージ合成(TIS)モデルと、大規模言語モデル(LLM)を"チャット"に整合させる新しい手法である。
生のプロンプト/イメージとユーザが指定した命令が与えられた場合、DiffChatは効果的に適切な修正を行い、ターゲットのプロンプトを生成する。
論文 参考訳(メタデータ) (2024-03-08T02:24:27Z) - DreamCreature: Crafting Photorealistic Virtual Creatures from
Imagination [140.1641573781066]
ターゲット概念のラベルなしイメージのセットを前提として、我々は、新しいハイブリッド概念を創出できるT2Iモデルをトレーニングすることを目指している。
そこで我々はDreamCreatureと呼ばれる新しい手法を提案し,その基盤となるサブ概念を同定し抽出する。
したがって、T2Iは忠実な構造とフォトリアリスティックな外観を持つ新しい概念を生成するのに適応する。
論文 参考訳(メタデータ) (2023-11-27T01:24:31Z) - Spellburst: A Node-based Interface for Exploratory Creative Coding with
Natural Language Prompts [7.074738009603178]
Spellburstは、LLM(Big Language Model)を利用したクリエイティブコーディング環境である。
Spellburstは、アーティストが生成アートを作成し、分岐とマージ操作を通じてバリエーションを探索することを可能にする。
論文 参考訳(メタデータ) (2023-08-07T21:54:58Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - WordStylist: Styled Verbatim Handwritten Text Generation with Latent
Diffusion Models [8.334487584550185]
単語レベルに基づくテキスト・テキスト・コンテンツ・イメージ生成のための遅延拡散に基づく手法を提案する。
提案手法は,異なる書き手スタイルからリアルな単語画像のサンプルを生成することができる。
提案モデルでは,美的満足度の高いサンプルを作成し,テキスト認識性能の向上に寄与し,類似の文字検索スコアを実データとして得られることを示す。
論文 参考訳(メタデータ) (2023-03-29T10:19:26Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - CODER: Coupled Diversity-Sensitive Momentum Contrastive Learning for
Image-Text Retrieval [108.48540976175457]
クロスモーダル表現を改善するために,共用ダイバーシティ・センシティブ・モーメント・コンストラシティブ・ラーニング(CODER)を提案する。
両モードの動的辞書を導入し、画像テキストペアのスケールを拡大し、適応的な負のペア重み付けにより多様性に敏感性を実現する。
MSCOCOとFlicker30Kという2つの人気のあるベンチマークで実施された実験は、CODERが最先端のアプローチを著しく上回っていることを証明している。
論文 参考訳(メタデータ) (2022-08-21T08:37:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。