Fugu-MT 論文翻訳(概要): Dynamic Typography: Bringing Text to Life via Video Diffusion Prior

論文の概要: Dynamic Typography: Bringing Text to Life via Video Diffusion Prior

arxiv url: http://arxiv.org/abs/2404.11614v2
Date: Thu, 18 Apr 2024 06:06:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-19 11:42:38.867045
Title: Dynamic Typography: Bringing Text to Life via Video Diffusion Prior
Title（参考訳）: ダイナミック・タイポグラフィー: ビデオ拡散による生活にテキストをもたらす
Authors: Zichen Liu, Yihao Meng, Hao Ouyang, Yue Yu, Bolin Zhao, Daniel Cohen-Or, Huamin Qu,
Abstract要約: 動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。
参考スコア（独自算出の注目度）: 73.72522617586593
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text animation serves as an expressive medium, transforming static communication into dynamic experiences by infusing words with motion to evoke emotions, emphasize meanings, and construct compelling narratives. Crafting animations that are semantically aware poses significant challenges, demanding expertise in graphic design and animation. We present an automated text animation scheme, termed "Dynamic Typography", which combines two challenging tasks. It deforms letters to convey semantic meaning and infuses them with vibrant movements based on user prompts. Our technique harnesses vector graphics representations and an end-to-end optimization-based framework. This framework employs neural displacement fields to convert letters into base shapes and applies per-frame motion, encouraging coherence with the intended textual concept. Shape preservation techniques and perceptual loss regularization are employed to maintain legibility and structural integrity throughout the animation process. We demonstrate the generalizability of our approach across various text-to-video models and highlight the superiority of our end-to-end methodology over baseline methods, which might comprise separate tasks. Through quantitative and qualitative evaluations, we demonstrate the effectiveness of our framework in generating coherent text animations that faithfully interpret user prompts while maintaining readability. Our code is available at: https://animate-your-word.github.io/demo/.
Abstract（参考訳）: テキストアニメーションは、感情を誘発し、意味を強調し、魅力的な物語を構築することによって、静的なコミュニケーションを動的体験に変換する表現媒体として機能する。セマンティックに認識されているアニメーションを作成することは、グラフィックデザインとアニメーションに関する専門知識を必要とする、重大な課題を引き起こす。本稿では,2つの課題を組み合わせ,動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。このフレームワークは、ニューラルネットワークを用いて文字を基本形に変換し、フレームごとの動きを適用し、意図したテキストの概念との一貫性を促進する。形状保存技術と知覚的損失正規化は、アニメーションプロセス全体を通して可視性と構造的整合性を維持するために用いられる。様々なテキスト・ビデオ・モデルにまたがるアプローチの一般化性を実証し、異なるタスクを構成するであろうベースライン・メソッドよりもエンド・ツー・エンド・エンド・方法論の優位性を強調した。定量的かつ質的な評価を通じて,可読性を維持しつつユーザのプロンプトを忠実に解釈するコヒーレントなテキストアニメーションを生成する上で,我々のフレームワークの有効性を実証する。私たちのコードは、https://animate-your-word.github.io/demo/.com/で利用可能です。

関連論文リスト

Think2Sing: Orchestrating Structured Motion Subtitles for Singing-Driven 3D Head Animation [69.50178144839275]
歌唱はより豊かな感情的なニュアンス、動的な韻律、歌詞に基づく意味論を含む。既存の音声駆動アプローチは、しばしば過度に単純化され、感情的に平坦で、意味的に一貫性のない結果をもたらす。 Think2Singは、歌詞と音響の両方に調和したセマンティックコヒーレントで時間的に一貫した3Dヘッドアニメーションを生成する。
論文参考訳（メタデータ） (2025-09-02T12:59:27Z)
OmniHuman-1.5: Instilling an Active Mind in Avatars via Cognitive Simulation [29.41106195298283]
既存のビデオアバターモデルは、流動的な人間のアニメーションを作り出すことができるが、キャラクターの真の本質を捉えるために、単なる物理的類似性を超えて動くのに苦労している。 textbfweは、物理的に妥当なだけでなく、意味的に一貫性があり表現力のあるキャラクターアニメーションを生成するために設計されたフレームワークを提案する。
論文参考訳（メタデータ） (2025-08-26T17:15:26Z)
DeepGesture: A conversational gesture synthesis system based on emotions and semantics [0.0]
DeepGestureは拡散に基づくジェスチャー合成フレームワークである。マルチモーダル信号に条件付けされた表現的共同音声ジェスチャーを生成する。我々は,DeepGesture が人間らしく,文脈的適切性も向上したジェスチャーを生成することを示す。
論文参考訳（メタデータ） (2025-07-03T20:04:04Z)
FlipSketch: Flipping Static Drawings to Text-Guided Sketch Animations [65.64014682930164]
スケッチアニメーションは、単純なフリップブックの落書きからプロのスタジオプロダクションまで、ビジュアルなストーリーテリングのための強力な媒体を提供する。 FlipSketchは、フリップブックアニメーションの魔法を復活させるシステムです。
論文参考訳（メタデータ） (2024-11-16T14:53:03Z)
Text-Animator: Controllable Visual Text Video Generation [149.940821790235]
ビジュアルテキストビデオ生成のための革新的アプローチであるText-Animatorを提案する。 Text-Animatorには、生成されたビデオの視覚的テキスト構造を正確に描写するテキスト埋め込みインジェクションモジュールが含まれている。また、生成した視覚テキストの安定性を向上させるために、カメラ制御モジュールとテキストリファインメントモジュールを開発する。
論文参考訳（メタデータ） (2024-06-25T17:59:41Z)
LASER: Tuning-Free LLM-Driven Attention Control for Efficient Text-conditioned Image-to-Animation [62.232361821779335]
本稿では,プロンプト・アウェア・編集の進歩的プロセスであるStablEアニメーションジェネレーション(LASER)をカプセル化した,チューニング不要なアテンション制御フレームワークを提案する。アニメーションの整合性を維持するために,モデルの空間的特徴と自己認識機構を操作する。空間的特徴と自己注意の厳密な制御により,画像の構造的一貫性が確保される。
論文参考訳（メタデータ） (2024-04-21T07:13:56Z)
AniClipart: Clipart Animation with Text-to-Video Priors [28.76809141136148]
AniClipartは、静的な画像をテキストからビデオへの事前案内による高品質なモーションシーケンスに変換するシステムである。実験結果から,提案したAniClipartは既存の画像・映像生成モデルより一貫して優れていることがわかった。
論文参考訳（メタデータ） (2024-04-18T17:24:28Z)
LivePhoto: Real Image Animation with Text-guided Motion Control [51.31418077586208]
この研究はLivePhotoという名前の実用的なシステムを示し、ユーザーが興味のある画像をテキスト記述でアニメーション化することができる。まず、よく学習されたテキスト・ツー・イメージ・ジェネレータ(すなわち、安定拡散)がさらに入力として画像を取るのを助ける強力なベースラインを確立する。次に、時間的モデリングのためのモーションモジュールを改良されたジェネレータに装備し、テキストとモーションのリンクをより良くするための、慎重に設計されたトレーニングパイプラインを提案する。
論文参考訳（メタデータ） (2023-12-05T17:59:52Z)
Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [27.700371215886683]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文参考訳（メタデータ） (2023-11-28T12:27:15Z)
SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。 CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文参考訳（メタデータ） (2023-10-31T09:58:11Z)
ExpCLIP: Bridging Text and Facial Expressions via Semantic Alignment [5.516575655881858]
本稿では、感情のプロンプトとして自然言語を活用することにより、任意のスタイルの制御を可能にする手法を提案する。提案手法は,表現力のある表情生成を実現し,所望のスタイルを効果的に伝達する柔軟性を向上する。
論文参考訳（メタデータ） (2023-08-28T09:35:13Z)
Unsupervised Learning of Style-Aware Facial Animation from Real Acting Performances [3.95944314850151]
本稿では, ブレンド形状, 動的テクスチャ, ニューラルレンダリングに基づく写真リアルな頭部モデルのテキスト/音声駆動アニメーションのための新しい手法を提案する。本手法は,テキストや音声をアニメーションパラメータの列に変換する条件付きCNNに基づいている。リアルなリアルタイムレンダリングのために、私たちは、改良された色と前景マットを演算することで、ピクセル化ベースのレンダリングを洗練するU-Netを訓練します。
論文参考訳（メタデータ） (2023-06-16T17:58:04Z)
Language-Guided Face Animation by Recurrent StyleGAN-based Generator [87.56260982475564]
本研究では,静的顔画像のアニメーション化を目的とした,言語指導型顔画像の新しいタスクについて検討する。本稿では,言語から一連の意味情報と動作情報を抽出し,学習済みのStyleGANに視覚情報と共に供給し,高品質なフレームを生成するための繰り返し動作生成手法を提案する。
論文参考訳（メタデータ） (2022-08-11T02:57:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。