論文の概要: Text-Animator: Controllable Visual Text Video Generation
- arxiv url: http://arxiv.org/abs/2406.17777v1
- Date: Tue, 25 Jun 2024 17:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 13:21:40.347632
- Title: Text-Animator: Controllable Visual Text Video Generation
- Title(参考訳): テキストアニメーション:制御可能なビジュアルテキスト映像生成
- Authors: Lin Liu, Quande Liu, Shengju Qian, Yuan Zhou, Wengang Zhou, Houqiang Li, Lingxi Xie, Qi Tian,
- Abstract要約: ビジュアルテキストビデオ生成のための革新的アプローチであるText-Animatorを提案する。
Text-Animatorには、生成されたビデオの視覚的テキスト構造を正確に描写するテキスト埋め込みインジェクションモジュールが含まれている。
また、生成した視覚テキストの安定性を向上させるために、カメラ制御モジュールとテキストリファインメントモジュールを開発する。
- 参考スコア(独自算出の注目度): 149.940821790235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video generation is a challenging yet pivotal task in various industries, such as gaming, e-commerce, and advertising. One significant unresolved aspect within T2V is the effective visualization of text within generated videos. Despite the progress achieved in Text-to-Video~(T2V) generation, current methods still cannot effectively visualize texts in videos directly, as they mainly focus on summarizing semantic scene information, understanding, and depicting actions. While recent advances in image-level visual text generation show promise, transitioning these techniques into the video domain faces problems, notably in preserving textual fidelity and motion coherence. In this paper, we propose an innovative approach termed Text-Animator for visual text video generation. Text-Animator contains a text embedding injection module to precisely depict the structures of visual text in generated videos. Besides, we develop a camera control module and a text refinement module to improve the stability of generated visual text by controlling the camera movement as well as the motion of visualized text. Quantitative and qualitative experimental results demonstrate the superiority of our approach to the accuracy of generated visual text over state-of-the-art video generation methods. The project page can be found at https://laulampaul.github.io/text-animator.html.
- Abstract(参考訳): ビデオ生成は、ゲーム、eコマース、広告など、さまざまな業界において難しいが重要な課題である。
T2V内の重要な未解決の側面は、生成されたビデオ内のテキストを効果的に可視化することである。
Text-to-Video〜(T2V)生成で達成された進歩にもかかわらず、現在の手法では、主にセマンティックシーン情報の要約、理解、アクションの描写に重点を置いているため、ビデオ中のテキストを直接効果的に視覚化することはできない。
画像レベルのビジュアルテキスト生成の最近の進歩は、将来性を示しているが、これらのテクニックをビデオ領域に移行することは、特にテキストの忠実さとモーションコヒーレンスを維持する際に問題に直面している。
本稿では,ビジュアルテキスト映像生成のためのテキストアニメーションという革新的な手法を提案する。
Text-Animatorには、生成されたビデオの視覚的テキスト構造を正確に描写するテキスト埋め込みインジェクションモジュールが含まれている。
さらに、映像テキストの移動だけでなく、カメラの動きを制御して、生成した視覚テキストの安定性を向上させるために、カメラ制御モジュールとテキストリファインメントモジュールを開発する。
定量的および定性的な実験結果から,最先端のビデオ生成法よりも生成した視覚テキストの精度が優れていることが示された。
プロジェクトのページはhttps://laulampaul.github.io/text-animator.htmlにある。
関連論文リスト
- VAST 1.0: A Unified Framework for Controllable and Consistent Video Generation [48.318567065609216]
VAST(Video As Storyboard from Text)は、テキスト記述から高品質なビデオを生成するためのフレームワークである。
映像生成からテキスト理解を分離することにより、VASTは主題のダイナミクスやシーン構成を正確に制御できる。
VBenchベンチマークの実験では、VASTは視覚的品質とセマンティック表現の両方において、既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-12-21T15:59:07Z) - Dynamic Typography: Bringing Text to Life via Video Diffusion Prior [73.72522617586593]
動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。
意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。
本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。
論文 参考訳(メタデータ) (2024-04-17T17:59:55Z) - LivePhoto: Real Image Animation with Text-guided Motion Control [51.31418077586208]
この研究はLivePhotoという名前の実用的なシステムを示し、ユーザーが興味のある画像をテキスト記述でアニメーション化することができる。
まず、よく学習されたテキスト・ツー・イメージ・ジェネレータ(すなわち、安定拡散)がさらに入力として画像を取るのを助ける強力なベースラインを確立する。
次に、時間的モデリングのためのモーションモジュールを改良されたジェネレータに装備し、テキストとモーションのリンクをより良くするための、慎重に設計されたトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2023-12-05T17:59:52Z) - Text2Performer: Text-Driven Human Video Generation [97.3849869893433]
テキストによるコンテンツ制作は、創造性に革命をもたらす変革的技術へと進化してきた。
そこで本研究では,対象パフォーマーの外観や動きを記述したテキストから映像シーケンスを合成する,テキスト駆動型ヒューマンビデオ生成の課題について検討する。
そこで本研究では,テキストから手話による映像を鮮明に生成するText2Performerを提案する。
論文 参考訳(メタデータ) (2023-04-17T17:59:02Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。