Fugu-MT 論文翻訳(概要): Bringing Characters to New Stories: Training-Free Theme-Specific Image Generation via Dynamic Visual Prompting

論文の概要: Bringing Characters to New Stories: Training-Free Theme-Specific Image Generation via Dynamic Visual Prompting

arxiv url: http://arxiv.org/abs/2501.15641v1
Date: Sun, 26 Jan 2025 19:01:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-28 21:57:03.783733
Title: Bringing Characters to New Stories: Training-Free Theme-Specific Image Generation via Dynamic Visual Prompting
Title（参考訳）: 新しいストーリーにキャラクタをもたらす:ダイナミック・ビジュアル・プロンプティングによるトレーニング不要のテーマ特有な画像生成
Authors: Yuxin Zhang, Minyan Luo, Weiming Dong, Xiao Yang, Haibin Huang, Chongyang Ma, Oliver Deussen, Tong-Yee Lee, Changsheng Xu,
Abstract要約: テーマ固有の画像生成のためのトレーニング不要なT-Prompterを提案する。 T-Prompterは参照イメージを生成モデルに統合し、ユーザはターゲットテーマをシームレスに指定できる。提案手法は,一貫したストーリー生成,キャラクターデザイン,リアルなキャラクタ生成,スタイル誘導画像生成を可能にする。
参考スコア（独自算出の注目度）: 71.29100512700064
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The stories and characters that captivate us as we grow up shape unique fantasy worlds, with images serving as the primary medium for visually experiencing these realms. Personalizing generative models through fine-tuning with theme-specific data has become a prevalent approach in text-to-image generation. However, unlike object customization, which focuses on learning specific objects, theme-specific generation encompasses diverse elements such as characters, scenes, and objects. Such diversity also introduces a key challenge: how to adaptively generate multi-character, multi-concept, and continuous theme-specific images (TSI). Moreover, fine-tuning approaches often come with significant computational overhead, time costs, and risks of overfitting. This paper explores a fundamental question: Can image generation models directly leverage images as contextual input, similarly to how large language models use text as context? To address this, we present T-Prompter, a novel training-free TSI method for generation. T-Prompter introduces visual prompting, a mechanism that integrates reference images into generative models, allowing users to seamlessly specify the target theme without requiring additional training. To further enhance this process, we propose a Dynamic Visual Prompting (DVP) mechanism, which iteratively optimizes visual prompts to improve the accuracy and quality of generated images. Our approach enables diverse applications, including consistent story generation, character design, realistic character generation, and style-guided image generation. Comparative evaluations against state-of-the-art personalization methods demonstrate that T-Prompter achieves significantly better results and excels in maintaining character identity preserving, style consistency and text alignment, offering a robust and flexible solution for theme-specific image generation.
Abstract（参考訳）: 私たちが成長するにつれて私たちを魅了する物語やキャラクターは、これらの領域を視覚的に体験するための主要な媒体として機能する、ユニークなファンタジーの世界を形成します。テーマ特化データによる微調整による生成モデルのパーソナライズは、テキスト・ツー・イメージ生成において一般的なアプローチとなっている。しかし、特定のオブジェクトを学習することに焦点を当てたオブジェクトのカスタマイズとは異なり、テーマ固有の生成は、文字、シーン、オブジェクトなどの様々な要素を含む。マルチ文字、マルチコンセプト、連続テーマ特化画像(TSI)を適応的に生成する方法。さらに、微調整のアプローチには、計算オーバーヘッド、時間コスト、過度な適合のリスクが伴うことが多い。画像生成モデルは、大言語モデルがコンテキストとしてテキストをどのように利用するかと同様に、文脈入力として画像を直接活用できるのか? そこで本研究では,T-Prompterを提案する。 T-Prompterは、参照イメージを生成モデルに統合するメカニズムであるビジュアルプロンプトを導入し、ユーザーは追加のトレーニングを必要とせずにターゲットテーマをシームレスに指定できる。このプロセスをさらに強化するために、視覚的プロンプトを反復的に最適化し、生成した画像の精度と品質を改善する動的ビジュアルプロンプト(DVP)機構を提案する。提案手法は,一貫したストーリー生成,キャラクターデザイン,リアルなキャラクタ生成,スタイル誘導画像生成など,多様な応用を可能にする。最先端のパーソナライズ手法との比較評価では、T-Prompterは文字識別の保存、スタイルの整合性、テキストアライメントの維持に優れ、テーマ固有の画像生成のための堅牢で柔軟なソリューションを提供する。

関連論文リスト

TextInVision: Text and Prompt Complexity Driven Visual Text Generation Benchmark [61.412934963260724]
既存の拡散ベースのテキスト・ツー・イメージモデルは、しばしば画像に正確にテキストを埋め込むのに苦労する。本研究では,画像に視覚テキストを統合する拡散モデルの有効性を評価するために,大規模で,かつ,迅速な複雑性駆動型ベンチマークであるTextInVisionを紹介する。
論文参考訳（メタデータ） (2025-03-17T21:36:31Z)
DesignDiffusion: High-Quality Text-to-Design Image Generation with Diffusion Models [115.62816053600085]
デザインイメージをテキスト記述から合成するフレームワークであるDesignDiffusionを提案する。提案するフレームワークは,ユーザプロンプトから直接テキストおよびビジュアルデザイン要素を合成する。視覚テキストから派生した特徴的な文字埋め込みを利用して入力プロンプトを強化する。
論文参考訳（メタデータ） (2025-03-03T15:22:57Z)
One-Prompt-One-Story: Free-Lunch Consistent Text-to-Image Generation Using a Single Prompt [101.17660804110409]
テキスト画像生成モデルは、入力プロンプトから高品質な画像を生成することができる。彼らはストーリーテリングのアイデンティティ保存要件の一貫性のある生成をサポートするのに苦労している。本稿では,一貫したテキスト・画像生成のための新しいトレーニングフリー手法を提案する。
論文参考訳（メタデータ） (2025-01-23T10:57:22Z)
Object-level Visual Prompts for Compositional Image Generation [75.6085388740087]
テキストから画像への拡散モデルにおいて,オブジェクトレベルの視覚的プロンプトを構成する手法を提案する。このタスクにおける重要な課題は、入力された視覚的プロンプトで表現されたオブジェクトのアイデンティティを保持することである。我々は、キーと値が異なる視覚的表現から学習される新しいKV混合のクロスアテンション機構を導入する。
論文参考訳（メタデータ） (2025-01-02T18:59:44Z)
Nested Attention: Semantic-aware Attention Values for Concept Personalization [78.90196530697897]
我々はNested Attentionを紹介した。これはモデル内の既存のクロスアテンション層にリッチで表現豊かなイメージ表現を注入する新しいメカニズムである。私たちのキーとなるアイデアは、ネストした注意層から得られたクエリ依存の主観値を生成し、生成した画像の各領域について関連する主観的特徴を選択することである。
論文参考訳（メタデータ） (2025-01-02T18:52:11Z)
MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance [5.452759083801634]
本研究では,マルチオブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、オブジェクト間コンポジションを編成する。
論文参考訳（メタデータ） (2024-06-11T12:32:53Z)
Visual Style Prompting with Swapping Self-Attention [26.511518230332758]
本稿では,特定のスタイル要素やニュアンスを維持しつつ,多様な画像を生成する新しい手法を提案する。 denoisingプロセスの間は、クエリを元の機能から保持し、キーと値を、後期の自己アテンション層にある参照機能と交換します。提案手法は既存のアプローチよりも優れており,参照のスタイルを最もよく反映し,得られた画像がテキストのプロンプトに最も正確に一致することを保証する。
論文参考訳（メタデータ） (2024-02-20T12:51:17Z)
Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文参考訳（メタデータ） (2024-02-05T18:42:34Z)
Plug-and-Play Diffusion Features for Text-Driven Image-to-Image Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文参考訳（メタデータ） (2022-11-22T20:39:18Z)
Improving Generation and Evaluation of Visual Stories via Semantic Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文参考訳（メタデータ） (2021-05-20T20:42:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。