論文の概要: Kinetic Typography Diffusion Model
- arxiv url: http://arxiv.org/abs/2407.10476v1
- Date: Mon, 15 Jul 2024 07:04:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 16:11:00.001964
- Title: Kinetic Typography Diffusion Model
- Title(参考訳): Kinetic Typography Diffusion Model
- Authors: Seonmi Park, Inhwan Bae, Seunghyun Shin, Hae-Gon Jeon,
- Abstract要約: 我々は,映像拡散モデルにおける最近の進歩を生かし,テキストの外観を視覚的に向上させる。
私たちのデータセットは、プロのモーショングラフィックデザイナーによって設計された584のテンプレートで、さまざまな組み合わせで作られています。
実験の結果,本モデルはテキストプロンプトに基づいて,可読性および芸術的文字運動を伴う動画像を生成することがわかった。
- 参考スコア(独自算出の注目度): 21.23046379736925
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces a method for realistic kinetic typography that generates user-preferred animatable 'text content'. We draw on recent advances in guided video diffusion models to achieve visually-pleasing text appearances. To do this, we first construct a kinetic typography dataset, comprising about 600K videos. Our dataset is made from a variety of combinations in 584 templates designed by professional motion graphics designers and involves changing each letter's position, glyph, and size (i.e., flying, glitches, chromatic aberration, reflecting effects, etc.). Next, we propose a video diffusion model for kinetic typography. For this, there are three requirements: aesthetic appearances, motion effects, and readable letters. This paper identifies the requirements. For this, we present static and dynamic captions used as spatial and temporal guidance of a video diffusion model, respectively. The static caption describes the overall appearance of the video, such as colors, texture and glyph which represent a shape of each letter. The dynamic caption accounts for the movements of letters and backgrounds. We add one more guidance with zero convolution to determine which text content should be visible in the video. We apply the zero convolution to the text content, and impose it on the diffusion model. Lastly, our glyph loss, only minimizing a difference between the predicted word and its ground-truth, is proposed to make the prediction letters readable. Experiments show that our model generates kinetic typography videos with legible and artistic letter motions based on text prompts.
- Abstract(参考訳): 本稿では,ユーザ優先のアニマタブルな「テキストコンテンツ」を生成するリアルなアクティカルタイポグラフィー手法を提案する。
近年,映像拡散モデルが進歩し,テキストの出現率の向上が図られている。
そこで我々はまず,約600Kの動画からなる運動型タイポグラフィーデータセットを構築した。
我々のデータセットは、プロのモーショングラフィックデザイナーが設計した584のテンプレートの様々な組み合わせで構成されており、各文字の位置、グリフ、サイズ(飛行、グリッチ、色収差、反射効果など)を変更する。
次に,速度論的タイポグラフィのためのビデオ拡散モデルを提案する。
これには美的外観、動作効果、読みやすい文字の3つの要件がある。
本稿は要件を特定します。
そこで我々は,ビデオ拡散モデルの空間的および時間的ガイダンスとして,静的なキャプションと動的キャプションをそれぞれ提示する。
静的キャプションには、各文字の形状を表す色、テクスチャ、グリフなど、ビデオ全体の外観が記述されている。
動的キャプションは文字や背景の動きを説明する。
コンボリューションをゼロにするもう1つのガイダンスを加えて、どのテキストコンテンツがビデオで見えるかを決めます。
テキスト内容にゼロ畳み込みを適用し,拡散モデルに印加する。
最後に,予測単語と接地真実の差を最小限に抑えることで,予測文字を可読化するためのグリフ損失を提案する。
実験の結果,本モデルはテキストプロンプトに基づいて,可読性および芸術的文字運動を伴う動画像を生成することがわかった。
関連論文リスト
- Dynamic Typography: Bringing Text to Life via Video Diffusion Prior [73.72522617586593]
動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。
意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。
本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。
論文 参考訳(メタデータ) (2024-04-17T17:59:55Z) - Motion Generation from Fine-grained Textual Descriptions [29.033358642532722]
我々は,ファインヒューマンML3Dという微細なテキスト記述を専門とする大規模言語移動データセットを構築した。
新しいテキスト2モーションモデルであるFineMotionDiffuseを設計し、微細なテキスト情報をフル活用する。
FineMotionDiffuseはFinHumanML3Dで訓練し,FIDを0.38の差で改善した。
論文 参考訳(メタデータ) (2024-03-20T11:38:30Z) - Pix2Gif: Motion-Guided Diffusion for GIF Generation [70.64240654310754]
画像からGIF(ビデオ)生成のための移動誘導拡散モデルPix2Gifを提案する。
本研究では,2種類のプロンプトに条件付きソース画像の特徴を空間的に変換する動き誘導型ワープモジュールを提案する。
モデルトレーニングの準備として、TGIFビデオキャプチャデータセットからコヒーレントな画像フレームを抽出し、精巧にデータをキュレートした。
論文 参考訳(メタデータ) (2024-03-07T16:18:28Z) - LivePhoto: Real Image Animation with Text-guided Motion Control [51.31418077586208]
この研究はLivePhotoという名前の実用的なシステムを示し、ユーザーが興味のある画像をテキスト記述でアニメーション化することができる。
まず、よく学習されたテキスト・ツー・イメージ・ジェネレータ(すなわち、安定拡散)がさらに入力として画像を取るのを助ける強力なベースラインを確立する。
次に、時間的モデリングのためのモーションモジュールを改良されたジェネレータに装備し、テキストとモーションのリンクをより良くするための、慎重に設計されたトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2023-12-05T17:59:52Z) - DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors [63.43133768897087]
オープンドメイン画像をアニメーションビデオに変換する手法を提案する。
鍵となるアイデアは、画像を生成プロセスに組み込むことで、テキストからビデオへの拡散モデルに先立っての動きを活用することである。
提案手法は視覚的に説得力があり、より論理的で自然な動きが得られ、入力画像への適合性が向上する。
論文 参考訳(メタデータ) (2023-10-18T14:42:16Z) - TokenFlow: Consistent Diffusion Features for Consistent Video Editing [27.736354114287725]
本稿では,テキスト駆動ビデオ編集作業において,テキスト間拡散モデルのパワーを利用するフレームワークを提案する。
提案手法は,入力ビデオの空間的レイアウトと動きを保ちながら,ターゲットテキストに付着した高品質な映像を生成する。
我々のフレームワークは、トレーニングや微調整を一切必要とせず、市販のテキスト・ツー・イメージ編集手法と連携して動作する。
論文 参考訳(メタデータ) (2023-07-19T18:00:03Z) - Text-Guided Synthesis of Eulerian Cinemagraphs [81.20353774053768]
テキスト記述からシネマグラフを作成する完全自動化された方法であるText2Cinemagraphを紹介する。
連続した動きと反復的なテクスチャを示す流れの川や漂流する雲などの流体要素のシネマグラフに焦点を当てる。
論文 参考訳(メタデータ) (2023-07-06T17:59:31Z) - Text2Performer: Text-Driven Human Video Generation [97.3849869893433]
テキストによるコンテンツ制作は、創造性に革命をもたらす変革的技術へと進化してきた。
そこで本研究では,対象パフォーマーの外観や動きを記述したテキストから映像シーケンスを合成する,テキスト駆動型ヒューマンビデオ生成の課題について検討する。
そこで本研究では,テキストから手話による映像を鮮明に生成するText2Performerを提案する。
論文 参考訳(メタデータ) (2023-04-17T17:59:02Z) - Show Me What and Tell Me How: Video Synthesis via Multimodal
Conditioning [36.85533835408882]
本研究は,テキストと画像を共同あるいは別々に提供するマルチモーダルビデオ生成フレームワークを提案する。
本稿では,自己学習で訓練した新しいビデオトークンと,ビデオトークンをサンプリングするためのマスク予測アルゴリズムを提案する。
我々のフレームワークは、セグメンテーションマスク、描画、部分閉塞画像など、様々な視覚的モダリティを組み込むことができる。
論文 参考訳(メタデータ) (2022-03-04T21:09:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。