論文の概要: DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga Generation
- arxiv url: http://arxiv.org/abs/2412.07589v1
- Date: Tue, 10 Dec 2024 15:24:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:36:56.371325
- Title: DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga Generation
- Title(参考訳): DiffSensei: カスタマイズマンガ生成のための多モードLCMと拡散モデル
- Authors: Jianzong Wu, Chao Tang, Jingbo Wang, Yanhong Zeng, Xiangtai Li, Yunhai Tong,
- Abstract要約: textbfDiffSenseiは動的マルチ文字制御でマンガを生成するために特別に設計されたフレームワークである。
DiffSenseiは、拡散ベースのイメージジェネレータと、テキスト互換のIDアダプタとして機能するマルチモーダル大言語モデル(MLLM)を統合している。
提案手法では,文字特徴をシームレスに組み込むためにマスク付きクロスアテンションを用いることで,直接ピクセル転送を行うことなく正確なレイアウト制御が可能となる。
- 参考スコア(独自算出の注目度): 32.24143157812589
- License:
- Abstract: Story visualization, the task of creating visual narratives from textual descriptions, has seen progress with text-to-image generation models. However, these models often lack effective control over character appearances and interactions, particularly in multi-character scenes. To address these limitations, we propose a new task: \textbf{customized manga generation} and introduce \textbf{DiffSensei}, an innovative framework specifically designed for generating manga with dynamic multi-character control. DiffSensei integrates a diffusion-based image generator with a multimodal large language model (MLLM) that acts as a text-compatible identity adapter. Our approach employs masked cross-attention to seamlessly incorporate character features, enabling precise layout control without direct pixel transfer. Additionally, the MLLM-based adapter adjusts character features to align with panel-specific text cues, allowing flexible adjustments in character expressions, poses, and actions. We also introduce \textbf{MangaZero}, a large-scale dataset tailored to this task, containing 43,264 manga pages and 427,147 annotated panels, supporting the visualization of varied character interactions and movements across sequential frames. Extensive experiments demonstrate that DiffSensei outperforms existing models, marking a significant advancement in manga generation by enabling text-adaptable character customization. The project page is https://jianzongwu.github.io/projects/diffsensei/.
- Abstract(参考訳): ストーリービジュアライゼーション(ストーリービジュアライゼーション)は、テキストから画像への生成モデルによって進歩している。
しかしながら、これらのモデルにはキャラクターの外観や相互作用、特にマルチキャラクタシーンに対する効果的な制御が欠如していることが多い。
これらの制約に対処するために, 動的マルチキャラクタ制御によるマンガ生成に特化して設計された革新的フレームワークである \textbf{customized manga generation} と \textbf{DiffSensei} を導入する。
DiffSenseiは、拡散ベースのイメージジェネレータと、テキスト互換のIDアダプタとして機能するマルチモーダル大言語モデル(MLLM)を統合している。
提案手法では,文字特徴をシームレスに組み込むためにマスク付きクロスアテンションを用いることで,直接ピクセル転送を行うことなく正確なレイアウト制御が可能となる。
さらにMLLMベースのアダプタは、文字の特徴をパネル固有のテキストキューに合わせるように調整し、文字表現、ポーズ、アクションの柔軟な調整を可能にする。
また,43,264のマンガページと427,147のアノテートパネルを含むタスクに適した大規模データセットである‘textbf{MangaZero}も導入し,文字の相互作用の可視化とシーケンシャルフレーム間の移動をサポートする。
大規模な実験により、DiffSenseiは既存のモデルよりも優れており、テキスト適応キャラクタのカスタマイズを可能にしたマンガ生成の大幅な進歩を示している。
プロジェクトページはhttps://jianzongwu.github.io/projects/diffsensei/。
関連論文リスト
- Bringing Characters to New Stories: Training-Free Theme-Specific Image Generation via Dynamic Visual Prompting [71.29100512700064]
テーマ固有の画像生成のためのトレーニング不要なT-Prompterを提案する。
T-Prompterは参照イメージを生成モデルに統合し、ユーザはターゲットテーマをシームレスに指定できる。
提案手法は,一貫したストーリー生成,キャラクターデザイン,リアルなキャラクタ生成,スタイル誘導画像生成を可能にする。
論文 参考訳(メタデータ) (2025-01-26T19:01:19Z) - Towards Visual Text Design Transfer Across Languages [49.78504488452978]
マルチモーダル・スタイル翻訳(MuST-Bench)の新たな課題について紹介する。
MuST-Benchは、視覚テキスト生成モデルが様々な書き込みシステム間で翻訳を行う能力を評価するために設計されたベンチマークである。
そこで我々は,スタイル記述の必要性を解消する多モーダルなスタイル翻訳フレームワークであるSIGILを紹介した。
論文 参考訳(メタデータ) (2024-10-24T15:15:01Z) - LLM4GEN: Leveraging Semantic Representation of LLMs for Text-to-Image Generation [30.897935761304034]
我々はtextbfLLM4GEN という新しいフレームワークを提案する。
特別に設計されたクロスアダプタモジュール(CAM)は、テキスト・ツー・イメージ・モデルのオリジナルのテキスト機能とLLM機能を統合する。
7000ドルの高密度プロンプトを含むDensePromptsは、テキスト・画像生成タスクの包括的な評価を提供する。
論文 参考訳(メタデータ) (2024-06-30T15:50:32Z) - TheaterGen: Character Management with LLM for Consistent Multi-turn Image Generation [44.740794326596664]
TheaterGenは、大規模な言語モデル(LLM)とテキスト・ツー・イメージ(T2I)モデルを統合した、トレーニング不要のフレームワークである。
このフレームワーク内では、LLMは"Screenwriter"として機能し、マルチターンインタラクションを行い、標準化されたプロンプトブックを生成し管理する。
プロンプトブックとキャラクタイメージの効果的な管理により、StaceGenは合成画像のセマンティックとコンテキスト整合性を大幅に改善する。
論文 参考訳(メタデータ) (2024-04-29T17:58:14Z) - Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs [77.86214400258473]
トレーニング不要なテキスト・画像生成/編集フレームワークであるRecaption, Plan and Generate(RPG)を提案する。
RPGは、マルチモーダルLLMの強力な連鎖推論能力を活用し、テキストから画像への拡散モデルの合成性を高める。
本フレームワークはMLLMアーキテクチャとの広範な互換性を示す。
論文 参考訳(メタデータ) (2024-01-22T06:16:29Z) - MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer [106.79844459065828]
本稿では,画像テキストデータのエンドツーエンド生成モデルであるMM-Interleavedを提案する。
マルチスケールおよびマルチイメージ機能同期モジュールを導入し、以前のコンテキストできめ細かい画像機能に直接アクセスできるようにする。
MM-Interleavedはマルチモーダルな指示に従って視覚的詳細を認識し、テキストと視覚の両方の条件に従って一貫した画像を生成する。
論文 参考訳(メタデータ) (2024-01-18T18:50:16Z) - Character-Centric Story Visualization via Visual Planning and Token
Alignment [53.44760407148918]
ストーリービジュアライゼーションは、完全なストーリーに基づいた複数の画像生成を可能にすることによって、従来のテキスト・画像生成を前進させる。
一貫性のあるストーリービジュアライゼーションの主な課題は、ストーリーに不可欠な文字を保存することです。
本稿では,Vector-Quantized Variational Autoencoderをテキスト・tovisual-tokenアーキテクチャで拡張する最近の研究に適応することを提案する。
論文 参考訳(メタデータ) (2022-10-16T06:50:39Z) - CM3: A Causal Masked Multimodal Model of the Internet [86.32652030161374]
構造化マルチモーダル文書の大規模コーパス上で訓練された因果マスク付き生成モデルのファミリーであるCM3を紹介する。
我々は、大規模ウェブやウィキペディアの記事で因果的にマスキングされた言語イメージモデルを訓練する。
CM3モデルは、任意のマスキングされた文書コンテキストを条件にしながら、リッチな構造化されたマルチモーダル出力を生成することができる。
論文 参考訳(メタデータ) (2022-01-19T10:45:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。