論文の概要: A Creative Agent is Worth a 64-Token Template
- arxiv url: http://arxiv.org/abs/2603.17895v1
- Date: Wed, 18 Mar 2026 16:25:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.820833
- Title: A Creative Agent is Worth a 64-Token Template
- Title(参考訳): クリエイティブエージェントは64-tokenテンプレートの価値がある
- Authors: Ruixiao Shi, Fu Feng, Yucheng Xie, Xu Yang, Jing Wang, Xin Geng,
- Abstract要約: テキスト・トゥ・イメージ(T2I)モデルは画像の忠実度を大幅に改善し、定着を早めたが、それらの創造性は独立した自然言語のプロンプトに依存している。
textbfAgent textbfTokenizationのフレームワークであるtextbfCATを紹介した。
- 参考スコア(独自算出の注目度): 31.988429473627594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image (T2I) models have substantially improved image fidelity and prompt adherence, yet their creativity remains constrained by reliance on discrete natural language prompts. When presented with fuzzy prompts such as ``a creative vinyl record-inspired skyscraper'', these models often fail to infer the underlying creative intent, leaving creative ideation and prompt design largely to human users. Recent reasoning- or agent-driven approaches iteratively augment prompts but incur high computational and monetary costs, as their instance-specific generation makes ``creativity'' costly and non-reusable, requiring repeated queries or reasoning for subsequent generations. To address this, we introduce \textbf{CAT}, a framework for \textbf{C}reative \textbf{A}gent \textbf{T}okenization that encapsulates agents' intrinsic understanding of ``creativity'' through a \textit{Creative Tokenizer}. Given the embeddings of fuzzy prompts, the tokenizer generates a reusable token template that can be directly concatenated with them to inject creative semantics into T2I models without repeated reasoning or prompt augmentation. To enable this, the tokenizer is trained via creative semantic disentanglement, leveraging relations among partially overlapping concept pairs to capture the agent's latent creative representations. Extensive experiments on \textbf{\textit{Architecture Design}}, \textbf{\textit{Furniture Design}}, and \textbf{\textit{Nature Mixture}} tasks demonstrate that CAT provides a scalable and effective paradigm for enhancing creativity in T2I generation, achieving a $3.7\times$ speedup and a $4.8\times$ reduction in computational cost, while producing images with superior human preference and text-image alignment compared to state-of-the-art T2I models and creative generation methods.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)モデルは画像の忠実度を大幅に改善し、定着を早めたが、それらの創造性は独立した自然言語のプロンプトに依存している。
創造的なビニールレコードにインスパイアされた超高層ビル'のようなファジィなプロンプトを提示すると、これらのモデルは基礎となる創造的な意図を推測できず、創造的なアイデアを残し、設計を主に人間に促す。
最近の推論やエージェント駆動のアプローチは、反復的なクエリや推論を必要とするが、インスタンス固有の生成によって‘創造性’が高価で再利用不可能になるため、計算と金銭のコストが増大する。
これを解決するために, エージェントの「創造性」に関する本質的な理解をカプセル化した, \textbf{C}reative \textbf{A}gent \textbf{T}okenization のためのフレームワークである \textbf{CAT} を紹介する。
ファジィプロンプトの埋め込みを考えると、トークン化子は再利用可能なトークンテンプレートを生成し、それらと直接結合して、反復的な推論やプロンプト拡張なしに、創造的なセマンティクスをT2Iモデルに注入することができる。
これを可能にするために、トークンライザは、部分的に重複する概念ペア間の関係を利用して、エージェントの潜む創造的表現をキャプチャする、創造的な意味的不絡を通じて訓練される。
CATはT2I世代における創造性を高めるためにスケーラブルで効果的なパラダイムを提供し、T2I世代において3.7\times$のスピードアップと4.8\times$の計算コストの削減を実現し、最先端のT2Iモデルや創造的生成方法よりも優れた人間の嗜好とテキストイメージアライメントを持つ画像を生成する。
関連論文リスト
- Show, Don't Tell: Morphing Latent Reasoning into Image Generation [60.743575139661154]
テキスト・ツー・イメージ(T2I)生成は目覚ましい進歩を遂げているが、既存の手法では生成時に動的に推論や洗練を行う能力が欠如していることが多い。
T2I生成プロセスに暗黙の潜伏推論をシームレスに統合するフレームワークであるLatentMorphを導入する。
連続ラテント空間で完全に推論を行うことにより、ラテントマーフは明示的推論のボトルネックを避け、より適応的な自己精製を可能にする。
論文 参考訳(メタデータ) (2026-02-02T15:29:48Z) - VLM-Guided Adaptive Negative Prompting for Creative Generation [21.534474554320823]
創造的生成(Creative generation)とは、ユーザの意図を反映する新しい、驚き、価値あるサンプルを事前に想像できない形で合成することである。
本稿では,VLM-Guided Adaptive Negative-Promptingを提案する。
創造的ノベルティにおいて,計算オーバーヘッドの無視による一貫した向上を示す。
論文 参考訳(メタデータ) (2025-10-12T17:34:59Z) - RePrompt: Reasoning-Augmented Reprompting for Text-to-Image Generation via Reinforcement Learning [88.14234949860105]
RePromptは、強化学習による迅速な強化プロセスに明示的な推論を導入する、新しいリプロンプトフレームワークである。
提案手法は,人手による注釈付きデータなしでエンドツーエンドのトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-05-23T06:44:26Z) - Redefining <Creative> in Dictionary: Towards an Enhanced Semantic Understanding of Creative Generation [39.93527514513576]
Creative'' は人間と拡散モデルの両方にとって本質的に抽象的な概念である。
現在の手法は、創造的な効果を達成するために参照プロンプトやイメージに大きく依存している。
CreTokを紹介します。これは、新しいトークンであるtexttCreTok>として、創造性を再定義することで、拡散モデルにメタ創造性をもたらすものです。
コードはhttps://github.com/fu-feng/CreTok.comで公開される。
論文 参考訳(メタデータ) (2024-10-31T17:19:03Z) - Automated Black-box Prompt Engineering for Personalized Text-to-Image Generation [149.96612254604986]
PRISMは人間の解釈可能なプロンプトを自動生成するアルゴリズムである。
大規模言語モデル(LLM)のジェイルブレイクにインスパイアされたPRISMは、LLMのコンテキスト内学習能力を活用して、候補のプロンプト分布を反復的に洗練する。
本実験は,複数のT2Iモデルのオブジェクト,スタイル,画像の正確なプロンプトを生成する上で,PRISMの有効性と有効性を示すものである。
論文 参考訳(メタデータ) (2024-03-28T02:35:53Z) - Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image
Diffusion Models [103.61066310897928]
最近のテキスト・ツー・イメージ生成モデルは、ターゲットのテキスト・プロンプトによって導かれる多様な創造的な画像を生成する非例外的な能力を実証している。
革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。
本研究では, 一般に公開されている安定拡散モデルを分析し, 破滅的無視の有無を評価し, そのモデルが入力プロンプトから1つ以上の被写体を生成するのに失敗した場合について検討する。
提案するジェネレーティブ・セマンティック・ナーシング(GSN)の概念は、推論時間中にハエの生殖過程に介入し、忠実性を改善するものである。
論文 参考訳(メタデータ) (2023-01-31T18:10:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。