論文の概要: Generating Animated Layouts as Structured Text Representations
- arxiv url: http://arxiv.org/abs/2505.00975v1
- Date: Fri, 02 May 2025 03:37:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.891456
- Title: Generating Animated Layouts as Structured Text Representations
- Title(参考訳): 構造化テキスト表現としてのアニメーションレイアウトの生成
- Authors: Yeonsang Shin, Jihwan Kim, Yumin Song, Kyungseung Lee, Hyunhee Chung, Taeyoung Na,
- Abstract要約: 静的なグラフィックレイアウトを時間動的に拡張するためにアニメーションレイアウト生成を導入する。
階層的視覚要素によるきめ細かい映像制御のための構造化テキスト表現を提案する。
本稿では,テキスト・ビデオ広告生成パイプラインであるVAKERを紹介する。
- 参考スコア(独自算出の注目度): 5.4694418946955
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite the remarkable progress in text-to-video models, achieving precise control over text elements and animated graphics remains a significant challenge, especially in applications such as video advertisements. To address this limitation, we introduce Animated Layout Generation, a novel approach to extend static graphic layouts with temporal dynamics. We propose a Structured Text Representation for fine-grained video control through hierarchical visual elements. To demonstrate the effectiveness of our approach, we present VAKER (Video Ad maKER), a text-to-video advertisement generation pipeline that combines a three-stage generation process with Unstructured Text Reasoning for seamless integration with LLMs. VAKER fully automates video advertisement generation by incorporating dynamic layout trajectories for objects and graphics across specific video frames. Through extensive evaluations, we demonstrate that VAKER significantly outperforms existing methods in generating video advertisements. Project Page: https://yeonsangshin.github.io/projects/Vaker
- Abstract(参考訳): テキスト・ツー・ビデオ・モデルの顕著な進歩にもかかわらず、特にビデオ広告のようなアプリケーションにおいて、テキスト要素とアニメーション・グラフィックの正確な制御を達成することは大きな課題である。
この制限に対処するために、静的なグラフィックレイアウトを時間的ダイナミクスで拡張する新しいアプローチであるAnimated Layout Generationを導入する。
階層的視覚要素によるきめ細かい映像制御のための構造化テキスト表現を提案する。
提案手法の有効性を示すために,LLMとのシームレスな統合を実現するために,3段階生成プロセスとUnstructured Text Reasoningを組み合わせたテキスト間広告生成パイプラインであるVAKER(Video Ad maKER)を提案する。
VAKERは、特定のビデオフレームにまたがるオブジェクトとグラフィックの動的レイアウトトラジェクトリを組み込むことで、ビデオ広告生成を完全に自動化する。
広範に評価した結果,VAKERは既存の広告制作方法よりも優れていた。
Project Page: https://yeonsangshin.github.io/projects/Vaker
関連論文リスト
- VideoAuteur: Towards Long Narrative Video Generation [22.915448471769384]
本稿では,調理領域における長めの物語生成を促進するために,大規模な調理ビデオデータセットを提案する。
生成ビデオにおける視覚的・意味的コヒーレンスを高めるために,Long Narrative Video Directorを導入する。
本手法は,視覚的細部および意味的整合性の生成における大幅な改善を示す。
論文 参考訳(メタデータ) (2025-01-10T18:52:11Z) - Text-Animator: Controllable Visual Text Video Generation [149.940821790235]
ビジュアルテキストビデオ生成のための革新的アプローチであるText-Animatorを提案する。
Text-Animatorには、生成されたビデオの視覚的テキスト構造を正確に描写するテキスト埋め込みインジェクションモジュールが含まれている。
また、生成した視覚テキストの安定性を向上させるために、カメラ制御モジュールとテキストリファインメントモジュールを開発する。
論文 参考訳(メタデータ) (2024-06-25T17:59:41Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - MEVG: Multi-event Video Generation with Text-to-Video Models [18.06640097064693]
本稿では,ユーザから複数の個々の文が与えられた複数のイベントを示すビデオを生成する,拡散に基づく新しいビデオ生成手法を提案する。
本手法は, 微調整処理を伴わずに, 事前学習したテキスト・ビデオ生成モデルを使用するため, 大規模なビデオデータセットを必要としない。
提案手法は,コンテンツとセマンティクスの時間的コヒーレンシーの観点から,他のビデオ生成モデルよりも優れている。
論文 参考訳(メタデータ) (2023-12-07T06:53:25Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。