論文の概要: Redefining in Dictionary: Towards a Enhanced Semantic Understanding of Creative Generation
- arxiv url: http://arxiv.org/abs/2410.24160v1
- Date: Thu, 31 Oct 2024 17:19:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:03:23.286714
- Title: Redefining <Creative> in Dictionary: Towards a Enhanced Semantic Understanding of Creative Generation
- Title(参考訳): 辞書における<Creative>を再定義する:創造的生成のセマンティック理解の強化を目指して
- Authors: Fu Feng, Yucheng Xie, Jing Wang, Xin Geng,
- Abstract要約: CreTokを導入し、" Creative" をトークン $texttCreTok>$ として再定義します。
CreTokは、より柔軟性と時間のオーバーヘッドを減らし、texttCreTok>$は任意の概念のユニバーサルトークンとして機能する。
- 参考スコア(独自算出の注目度): 37.97945436202779
- License:
- Abstract: Creativity, both in human and diffusion models, remains an inherently abstract concept; thus, simply adding "creative" to a prompt does not yield reliable semantic recognition by the model. In this work, we concretize the abstract notion of "creative" through the TP2O task, which aims to merge two unrelated concepts, and introduce CreTok, redefining "creative" as the token $\texttt{<CreTok>}$. This redefinition offers a more concrete and universally adaptable representation for concept blending. This redefinition occurs continuously, involving the repeated random sampling of text pairs with different concepts and optimizing cosine similarity between target and constant prompts. This approach enables $\texttt{<CreTok>}$ to learn a method for creative concept fusion. Extensive experiments demonstrate that the creative capability enabled by $\texttt{<CreTok>}$ substantially surpasses recent SOTA diffusion models and achieves superior creative generation. CreTok exhibits greater flexibility and reduced time overhead, as $\texttt{<CreTok>}$ can function as a universal token for any concept, facilitating creative generation without retraining.
- Abstract(参考訳): 人間と拡散モデルの両方において創造性は本質的に抽象的な概念であり、プロンプトに「創造的」を追加するだけでモデルによる信頼できる意味認識が得られない。
本研究では,2つの無関係な概念を統合することを目的としたTP2Oタスクを通じて「創造性」という抽象概念を整理し,CreTokを導入し,トークンとして「創造性」を再定義する。
この再定義は、概念ブレンディングに対してより具体的で普遍的に適応可能な表現を提供する。
この再定義は連続的に行われ、異なる概念を持つテキストペアのランダムサンプリングを繰り返し、ターゲットと一定プロンプトのコサイン類似性を最適化する。
このアプローチにより、$\texttt{<CreTok>}$でクリエイティブな概念融合の方法を学ぶことができる。
大規模な実験により、$\texttt{<CreTok>}$で実現された創造力は、最近のSOTA拡散モデルを大幅に上回り、優れた創造力を生み出すことが示されている。
CreTokは、より柔軟性と時間のオーバーヘッドを減らし、$\texttt{<CreTok>}$は任意の概念の普遍トークンとして機能し、再トレーニングなしに創造的な生成を容易にする。
関連論文リスト
- ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - DiffChat: Learning to Chat with Text-to-Image Synthesis Models for
Interactive Image Creation [40.478839423995296]
DiffChatは、対話型画像生成のための、インプット・アズ・インプット・テキスト・トゥ・イメージ合成(TIS)モデルと、大規模言語モデル(LLM)を"チャット"に整合させる新しい手法である。
生のプロンプト/イメージとユーザが指定した命令が与えられた場合、DiffChatは効果的に適切な修正を行い、ターゲットのプロンプトを生成する。
論文 参考訳(メタデータ) (2024-03-08T02:24:27Z) - DreamCreature: Crafting Photorealistic Virtual Creatures from
Imagination [140.1641573781066]
ターゲット概念のラベルなしイメージのセットを前提として、我々は、新しいハイブリッド概念を創出できるT2Iモデルをトレーニングすることを目指している。
そこで我々はDreamCreatureと呼ばれる新しい手法を提案し,その基盤となるサブ概念を同定し抽出する。
したがって、T2Iは忠実な構造とフォトリアリスティックな外観を持つ新しい概念を生成するのに適応する。
論文 参考訳(メタデータ) (2023-11-27T01:24:31Z) - Spellburst: A Node-based Interface for Exploratory Creative Coding with
Natural Language Prompts [7.074738009603178]
Spellburstは、LLM(Big Language Model)を利用したクリエイティブコーディング環境である。
Spellburstは、アーティストが生成アートを作成し、分岐とマージ操作を通じてバリエーションを探索することを可能にする。
論文 参考訳(メタデータ) (2023-08-07T21:54:58Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - WordStylist: Styled Verbatim Handwritten Text Generation with Latent
Diffusion Models [8.334487584550185]
単語レベルに基づくテキスト・テキスト・コンテンツ・イメージ生成のための遅延拡散に基づく手法を提案する。
提案手法は,異なる書き手スタイルからリアルな単語画像のサンプルを生成することができる。
提案モデルでは,美的満足度の高いサンプルを作成し,テキスト認識性能の向上に寄与し,類似の文字検索スコアを実データとして得られることを示す。
論文 参考訳(メタデータ) (2023-03-29T10:19:26Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - CODER: Coupled Diversity-Sensitive Momentum Contrastive Learning for
Image-Text Retrieval [108.48540976175457]
クロスモーダル表現を改善するために,共用ダイバーシティ・センシティブ・モーメント・コンストラシティブ・ラーニング(CODER)を提案する。
両モードの動的辞書を導入し、画像テキストペアのスケールを拡大し、適応的な負のペア重み付けにより多様性に敏感性を実現する。
MSCOCOとFlicker30Kという2つの人気のあるベンチマークで実施された実験は、CODERが最先端のアプローチを著しく上回っていることを証明している。
論文 参考訳(メタデータ) (2022-08-21T08:37:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。