論文の概要: TaleCrafter: Interactive Story Visualization with Multiple Characters
- arxiv url: http://arxiv.org/abs/2305.18247v2
- Date: Tue, 30 May 2023 08:54:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 11:25:49.256645
- Title: TaleCrafter: Interactive Story Visualization with Multiple Characters
- Title(参考訳): TaleCrafter: 複数のキャラクタによるインタラクティブなストーリービジュアライゼーション
- Authors: Yuan Gong, Youxin Pang, Xiaodong Cun, Menghan Xia, Yingqing He, Haoxin
Chen, Longyue Wang, Yong Zhang, Xintao Wang, Ying Shan, Yujiu Yang
- Abstract要約: 本稿では,ジェネリック・インタラクティブ・ストーリー・ビジュアライゼーションシステムを提案する。
複数の新しい文字を扱うことができ、レイアウトと局所構造の編集をサポートする。
システムは、ストーリー・ツー・プロンプト・ジェネレーション(S2P)、テキスト・ツー・ジェネレーション(T2L)、制御可能なテキスト・ツー・イメージ・ジェネレーション(C-T2I)、画像・トゥ・ビデオ・アニメーション(I2V)の4つの相互接続コンポーネントからなる。
- 参考スコア(独自算出の注目度): 49.14122401339003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate Story visualization requires several necessary elements, such as
identity consistency across frames, the alignment between plain text and visual
content, and a reasonable layout of objects in images. Most previous works
endeavor to meet these requirements by fitting a text-to-image (T2I) model on a
set of videos in the same style and with the same characters, e.g., the
FlintstonesSV dataset. However, the learned T2I models typically struggle to
adapt to new characters, scenes, and styles, and often lack the flexibility to
revise the layout of the synthesized images. This paper proposes a system for
generic interactive story visualization, capable of handling multiple novel
characters and supporting the editing of layout and local structure. It is
developed by leveraging the prior knowledge of large language and T2I models,
trained on massive corpora. The system comprises four interconnected
components: story-to-prompt generation (S2P), text-to-layout generation (T2L),
controllable text-to-image generation (C-T2I), and image-to-video animation
(I2V). First, the S2P module converts concise story information into detailed
prompts required for subsequent stages. Next, T2L generates diverse and
reasonable layouts based on the prompts, offering users the ability to adjust
and refine the layout to their preference. The core component, C-T2I, enables
the creation of images guided by layouts, sketches, and actor-specific
identifiers to maintain consistency and detail across visualizations. Finally,
I2V enriches the visualization process by animating the generated images.
Extensive experiments and a user study are conducted to validate the
effectiveness and flexibility of interactive editing of the proposed system.
- Abstract(参考訳): 正確なストーリーの視覚化には、フレーム間のアイデンティティ一貫性、プレーンテキストとビジュアルコンテンツのアライメント、イメージ内のオブジェクトの適切なレイアウトなど、いくつかの必要な要素が必要です。
以前の作品の多くは、同じスタイルで同じ文字の動画群、例えばフリントストーンsvデータセットにテキスト・ツー・イメージ(t2i)モデルを適合させることで、これらの要件を満たそうとしている。
しかし、学習されたT2Iモデルは一般的に新しいキャラクター、シーン、スタイルに適応するのに苦労し、しばしば合成画像のレイアウトを変更する柔軟性に欠ける。
本稿では,複数の新規文字を処理し,レイアウトや局所構造の編集を支援する汎用対話型ストーリー可視化システムを提案する。
大規模コーパスで訓練された大規模言語とT2Iモデルの事前知識を活用することで開発される。
システムは、ストーリー・ツー・プロンプト生成(S2P)、テキスト・トゥ・レイアウト生成(T2L)、制御可能なテキスト・ツー・イメージ生成(C-T2I)、イメージ・トゥ・ビデオアニメーション(I2V)の4つの相互接続コンポーネントからなる。
まず、S2Pモジュールは、簡潔なストーリー情報をその後の段階に必要な詳細なプロンプトに変換する。
次に、T2Lはプロンプトに基づいて多様で合理的なレイアウトを生成し、ユーザが好みに合わせてレイアウトを調整および洗練する機能を提供する。
コアコンポーネントであるc-t2iは、レイアウト、スケッチ、アクタ固有の識別子でガイドされたイメージの作成を可能にする。
最後に、I2Vは生成した画像をアニメーションすることで可視化プロセスを強化する。
提案システムの対話型編集の有効性と柔軟性を検証するため,広範な実験とユーザ調査を行った。
関連論文リスト
- PIA: Your Personalized Image Animator via Plug-and-Play Modules in
Text-to-Image Models [15.725210392693564]
PIAは、条件画像との整合性、テキストによる動作制御性、および特定のチューニングなしで様々なパーソナライズされたT2Iモデルとの互換性に優れる。
PIAのキーコンポーネントは条件モジュールの導入であり、入力として条件フレームとフレーム間の親和性を利用する。
論文 参考訳(メタデータ) (2023-12-21T15:51:12Z) - Story Visualization by Online Text Augmentation with Context Memory [64.86944645907771]
オンラインテキスト拡張による双方向トランスフォーマーフレームワークのための新しいメモリアーキテクチャを提案する。
提案手法は, FID, キャラクタF1, フレーム精度, BLEU-2/3, R精度など, 様々な指標において, 芸術の状態を著しく上回っている。
論文 参考訳(メタデータ) (2023-08-15T05:08:12Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot
Text-to-Video Generation [37.25815760042241]
本稿では,テキスト・ツー・ビデオ(T2V)ビデオを生成するための新しいフレームワークであるDirecT2Vを紹介する。
拡散モデルに新しい値マッピング法とデュアルソフトマックスフィルタリングを適用し、追加のトレーニングを必要としない。
実験により,視覚的コヒーレントかつストーリーフルなビデオ制作におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-05-23T17:57:09Z) - Character-Centric Story Visualization via Visual Planning and Token
Alignment [53.44760407148918]
ストーリービジュアライゼーションは、完全なストーリーに基づいた複数の画像生成を可能にすることによって、従来のテキスト・画像生成を前進させる。
一貫性のあるストーリービジュアライゼーションの主な課題は、ストーリーに不可欠な文字を保存することです。
本稿では,Vector-Quantized Variational Autoencoderをテキスト・tovisual-tokenアーキテクチャで拡張する最近の研究に適応することを提案する。
論文 参考訳(メタデータ) (2022-10-16T06:50:39Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z) - Make It Move: Controllable Image-to-Video Generation with Text
Descriptions [69.52360725356601]
TI2Vタスクは、静的画像とテキスト記述からビデオを生成することを目的としている。
これらの課題に対処するために,革新的なアンカー構造を持つモーションアンカー型ビデオGEnerator (MAGE) を提案する。
データセットで行った実験は、MAGEの有効性を検証するとともに、TI2Vタスクの魅力を示す。
論文 参考訳(メタデータ) (2021-12-06T07:00:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。