論文の概要: Evolving Storytelling: Benchmarks and Methods for New Character Customization with Diffusion Models
- arxiv url: http://arxiv.org/abs/2405.11852v1
- Date: Mon, 20 May 2024 07:54:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 13:53:58.468208
- Title: Evolving Storytelling: Benchmarks and Methods for New Character Customization with Diffusion Models
- Title(参考訳): ストーリーテリングの進化:拡散モデルを用いた新しいキャラクタカスタマイズのためのベンチマークと方法
- Authors: Xiyu Wang, Yufei Wang, Satoshi Tsutsui, Weisi Lin, Bihan Wen, Alex C. Kot,
- Abstract要約: ニューエピソード・ベンチマークを導入し、新しいキャラクターで新しいストーリーを生成する際の生成モデルの適応性を評価する。
EpicEvoは,新しいキャラクタをシームレスに統合した単一ストーリーで,拡散に基づくビジュアルストーリー生成モデルをカスタマイズする手法である。
- 参考スコア(独自算出の注目度): 79.21968152209193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based models for story visualization have shown promise in generating content-coherent images for storytelling tasks. However, how to effectively integrate new characters into existing narratives while maintaining character consistency remains an open problem, particularly with limited data. Two major limitations hinder the progress: (1) the absence of a suitable benchmark due to potential character leakage and inconsistent text labeling, and (2) the challenge of distinguishing between new and old characters, leading to ambiguous results. To address these challenges, we introduce the NewEpisode benchmark, comprising refined datasets designed to evaluate generative models' adaptability in generating new stories with fresh characters using just a single example story. The refined dataset involves refined text prompts and eliminates character leakage. Additionally, to mitigate the character confusion of generated results, we propose EpicEvo, a method that customizes a diffusion-based visual story generation model with a single story featuring the new characters seamlessly integrating them into established character dynamics. EpicEvo introduces a novel adversarial character alignment module to align the generated images progressively in the diffusive process, with exemplar images of new characters, while applying knowledge distillation to prevent forgetting of characters and background details. Our evaluation quantitatively demonstrates that EpicEvo outperforms existing baselines on the NewEpisode benchmark, and qualitative studies confirm its superior customization of visual story generation in diffusion models. In summary, EpicEvo provides an effective way to incorporate new characters using only one example story, unlocking new possibilities for applications such as serialized cartoons.
- Abstract(参考訳): ストーリービジュアライゼーションのための拡散モデルでは、ストーリーテリングタスクのためのコンテンツコヒーレントな画像を生成することが期待できる。
しかし、文字の一貫性を維持しつつ、新しい文字を既存の物語に効果的に統合する方法は、特に限られたデータでは未解決の問題である。
1)潜在的な文字リークと一貫性のないテキストラベリングによる適切なベンチマークがないこと,2)新しい文字と古い文字を区別することの難しさ,そして曖昧な結果をもたらすこと,である。
これらの課題に対処するために、生成モデルの適応性を評価するために設計された改良データセットからなるNewEpisodeベンチマークを導入する。
洗練されたデータセットは、洗練されたテキストプロンプトと文字のリークを除去する。
さらに、生成した結果の文字混乱を軽減するために、新しい文字をシームレスに統合した単一ストーリーで拡散に基づくビジュアルストーリー生成モデルをカスタマイズする手法であるEpicEvoを提案する。
EpicEvoは、新たな逆キャラクタアライメントモジュールを導入し、生成した画像を拡散過程において段階的に整列させ、新しいキャラクタの模範的なイメージを付加するとともに、知識蒸留を適用して文字や背景の詳細の忘れを防止する。
EpicEvoはNewEpisodeベンチマークで既存のベースラインよりも優れており、定性的な研究により拡散モデルにおける視覚的ストーリー生成の優れたカスタマイズが確認されている。
要約すると、EpicEvoは1つの例だけを使って新しいキャラクターを組み込む効果的な方法を提供する。
関連論文リスト
- Boosting Semi-Supervised Scene Text Recognition via Viewing and Summarizing [71.29488677105127]
既存のシーンテキスト認識(STR)手法は、特に芸術的で歪んだ文字に対して、挑戦的なテキストを認識するのに苦労している。
人的コストを伴わずに、合成データと実際のラベルなしデータを活用して、対照的な学習ベースのSTRフレームワークを提案する。
本手法は,共通ベンチマークとUnion14M-Benchmarkで平均精度94.7%,70.9%のSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-11-23T15:24:47Z) - Storynizor: Consistent Story Generation via Inter-Frame Synchronized and Shuffled ID Injection [27.412361280397057]
本稿では,フレーム間キャラクタ一貫性の強いコヒーレントなストーリを生成するモデルであるStorynizorを紹介する。
Storynizorの主なイノベーションは、主要なモジュールであるID-SynchronizerとID-Injectorにある。
Storynizorのトレーニングを容易にするために、100,000の画像からなるStoryDBと呼ばれる新しいデータセットをキュレートした。
論文 参考訳(メタデータ) (2024-09-29T09:15:51Z) - Generating Visual Stories with Grounded and Coreferent Characters [63.07511918366848]
本稿では,一貫した接地的・中核的な特徴を持つ視覚的ストーリーを予測できる最初のモデルを提案する。
我々のモデルは、広く使われているVISTベンチマークの上に構築された新しいデータセットに基づいて微調整されています。
また、物語における文字の豊かさとコア参照を測定するための新しい評価指標を提案する。
論文 参考訳(メタデータ) (2024-09-20T14:56:33Z) - StoryGPT-V: Large Language Models as Consistent Story Visualizers [39.790319429455856]
生成モデルは、テキストのプロンプトに基づいて、現実的で視覚的に喜ばしい画像を生成する素晴らしい能力を示しています。
しかし、新興のLarge Language Model(LLM)はあいまいな参照をナビゲートする堅牢な推論能力を示している。
遅延拡散(LDM)とLDMの利点を生かしたtextbfStoryGPT-V を導入し,一貫した高品質な画像を生成する。
論文 参考訳(メタデータ) (2023-12-04T18:14:29Z) - Detecting and Grounding Important Characters in Visual Stories [18.870236356616907]
本稿では,リッチな文字中心アノテーションを提供するVIST-Characterデータセットを紹介する。
このデータセットに基づいて,重要な文字の検出と,視覚的ストーリーにおける文字のグラウンド化という,2つの新しいタスクを提案する。
本研究では,分布類似性と事前学習された視覚・言語モデルに基づく,シンプルで教師なしのモデルを開発する。
論文 参考訳(メタデータ) (2023-03-30T18:24:06Z) - Make-A-Story: Visual Memory Conditioned Consistent Story Generation [57.691064030235985]
本稿では,アクタと背景コンテキストを暗黙的にキャプチャするビジュアルメモリモジュールを備えた,自己回帰拡散に基づく新しいフレームワークを提案する。
本手法は,視覚的品質の高いフレーム生成において,先行技術よりも優れていた。
MUGEN, PororoSV, FlintstonesSVデータセット上でのストーリー生成実験により, この手法は, 視覚的品質の高いフレーム生成において, 先行技術よりも優れるだけでなく, キャラクタと背景との適切な対応をモデル化した。
論文 参考訳(メタデータ) (2022-11-23T21:38:51Z) - StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story
Continuation [76.44802273236081]
生成したビジュアルストーリーをソースイメージに条件付けしたストーリー継続のためのモデルであるStoryDALL-Eを開発した。
提案手法は, ストーリー継続のためのGANモデルよりも優れており, 画像からの視覚要素のコピーを容易にする。
全体として、本研究は、事前訓練されたテキスト-画像合成モデルがストーリー継続のような複雑で低リソースなタスクに適応できることを実証している。
論文 参考訳(メタデータ) (2022-09-13T17:47:39Z) - Word-Level Fine-Grained Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、動的シーンやキャラクターをまたいだグローバルな一貫性を備えた多文ストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は画像の品質と一貫性に苦慮しており、追加のセマンティック情報や補助的なキャプションネットワークに依存している。
まず,全ての物語文からの単語情報を取り入れた新しい文表現を導入し,不整合問題を緩和する。
そこで本稿では,画像の質とストーリーの整合性を改善するために,融合機能を備えた新たな識別器を提案する。
論文 参考訳(メタデータ) (2022-08-03T21:01:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。