論文の概要: DreamRunner: Fine-Grained Storytelling Video Generation with Retrieval-Augmented Motion Adaptation
- arxiv url: http://arxiv.org/abs/2411.16657v1
- Date: Mon, 25 Nov 2024 18:41:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:24:54.552967
- Title: DreamRunner: Fine-Grained Storytelling Video Generation with Retrieval-Augmented Motion Adaptation
- Title(参考訳): DreamRunner: 検索可能なモーションアダプションを備えた細粒のストーリーテリングビデオ生成
- Authors: Zun Wang, Jialu Li, Han Lin, Jaehong Yoon, Mohit Bansal,
- Abstract要約: ストーリーテリングビデオ生成(SVG)は、最近、長いマルチモーションのマルチシーンビデオを作成するタスクとして登場した。
本研究では,新しいストーリー・ツー・ビデオ生成手法であるDreamRunnerを提案する。
文字の整合性、テキストアライメント、スムーズな遷移における最先端性能を示す。
- 参考スコア(独自算出の注目度): 60.07447565026327
- License:
- Abstract: Storytelling video generation (SVG) has recently emerged as a task to create long, multi-motion, multi-scene videos that consistently represent the story described in the input text script. SVG holds great potential for diverse content creation in media and entertainment; however, it also presents significant challenges: (1) objects must exhibit a range of fine-grained, complex motions, (2) multiple objects need to appear consistently across scenes, and (3) subjects may require multiple motions with seamless transitions within a single scene. To address these challenges, we propose DreamRunner, a novel story-to-video generation method: First, we structure the input script using a large language model (LLM) to facilitate both coarse-grained scene planning as well as fine-grained object-level layout and motion planning. Next, DreamRunner presents retrieval-augmented test-time adaptation to capture target motion priors for objects in each scene, supporting diverse motion customization based on retrieved videos, thus facilitating the generation of new videos with complex, scripted motions. Lastly, we propose a novel spatial-temporal region-based 3D attention and prior injection module SR3AI for fine-grained object-motion binding and frame-by-frame semantic control. We compare DreamRunner with various SVG baselines, demonstrating state-of-the-art performance in character consistency, text alignment, and smooth transitions. Additionally, DreamRunner exhibits strong fine-grained condition-following ability in compositional text-to-video generation, significantly outperforming baselines on T2V-ComBench. Finally, we validate DreamRunner's robust ability to generate multi-object interactions with qualitative examples.
- Abstract(参考訳): ストーリーテリングビデオ生成(SVG)は、最近、入力テキストスクリプトで記述されたストーリーを一貫して表現する長いマルチモーション・マルチシーンビデオを作成するタスクとして登場した。
SVGはメディアやエンターテイメントにおいて多種多様なコンテンツ制作の可能性を秘めているが、(1)オブジェクトは細粒度で複雑な動きを見せる必要があり、(2)複数のオブジェクトはシーン全体に一貫して現れる必要があり、(3)被験者は1つのシーン内でシームレスな遷移を伴う複数の動きを必要とする。
まず,大きな言語モデル (LLM) を用いて入力スクリプトを構造化し,粒度の粗いシーン計画と粒度の細かいオブジェクトレベルのレイアウトとモーションプランニングを容易にする。
次に、DreamRunnerは、各シーンにおけるオブジェクトのターゲットモーションをキャプチャするための検索強化されたテスト時間適応を提示し、検索されたビデオに基づいた多様なモーションカスタマイズをサポートし、複雑なスクリプトされたモーションを持つ新しいビデオの生成を容易にする。
最後に,空間時間領域に基づく新しい3次元アテンションと先行注入モジュールSR3AIを提案する。
我々はDreamRunnerを様々なSVGベースラインと比較し、文字の一貫性、テキストアライメント、スムーズな遷移における最先端のパフォーマンスを示す。
さらに、DreamRunnerは、T2V-ComBenchのベースラインを大幅に上回る、コンポジションテキスト・ビデオ生成において、きめ細かい条件追従能力を示す。
最後に,DreamRunnerの定性的な例による多目的インタラクションを生成する頑健な能力を検証する。
関連論文リスト
- Motion Control for Enhanced Complex Action Video Generation [17.98485830881648]
既存のテキスト・ツー・ビデオ(T2V)モデルは、十分に発音または複雑なアクションでビデオを生成するのに苦労することが多い。
そこで本稿では, 高精度な流体アクションで長編ビデオを生成するための新しいフレームワークであるMVideoを提案する。
MVideoは、追加の動作条件入力としてマスクシーケンスを組み込むことで、テキストプロンプトの制限を克服する。
論文 参考訳(メタデータ) (2024-11-13T04:20:45Z) - VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos [58.765796160750504]
VideoGLaMMは、ユーザが提供するテキスト入力に基づいて、ビデオの細かいピクセルレベルのグラウンド化を行うための新しいモデルである。
このアーキテクチャは、ビデオコンテンツの空間的要素と時間的要素の両方をテキスト命令と同期させるよう訓練されている。
実験の結果、我々のモデルは3つのタスクすべてで既存のアプローチより一貫して優れています。
論文 参考訳(メタデータ) (2024-11-07T17:59:27Z) - MMHead: Towards Fine-grained Multi-modal 3D Facial Animation [68.04052669266174]
大規模なマルチモーダル3次元顔アニメーションデータセットMMHeadを構築した。
MMHeadは、49時間の3D顔の動きシーケンス、音声、リッチな階層的なテキストアノテーションで構成されている。
MMHeadデータセットに基づいて,テキストによる3次元対話ヘッドアニメーションとテキストから3次元の顔の動き生成という,2つの新しいタスクのベンチマークを構築した。
論文 参考訳(メタデータ) (2024-10-10T09:37:01Z) - Compositional 3D-aware Video Generation with LLM Director [27.61057927559143]
本稿では,3次元表現において各概念を個別に生成し,大言語モデルと2次元拡散モデルから先行概念を合成する新しいパラダイムを提案する。
本手法では,テキストから高忠実度映像を生成でき,各概念を柔軟に制御できる。
論文 参考訳(メタデータ) (2024-08-31T23:07:22Z) - Story3D-Agent: Exploring 3D Storytelling Visualization with Large Language Models [57.30913211264333]
提案するStory3D-Agentは、提供された物語を3Dレンダリングの可視化に変換する先駆的なアプローチである。
プロシージャモデリングを統合することで,複数文字の動作や動きを正確に制御できるだけでなく,多様な装飾的要素も利用できる。
我々は,ストーリー3D-Agentを徹底的に評価し,その有効性を検証し,3Dストーリー表現を前進させるための基本的な枠組みを提供した。
論文 参考訳(メタデータ) (2024-08-21T17:43:15Z) - DreamVideo: Composing Your Dream Videos with Customized Subject and
Motion [52.7394517692186]
対象の静的画像からパーソナライズされたビデオを生成する新しいアプローチであるDreamVideoを紹介します。
DreamVideoは、このタスクを、トレーニング済みのビデオ拡散モデルを活用することによって、主観学習とモーション学習の2つの段階に分離する。
モーション学習では、対象のモーションパターンを効果的にモデル化するために、モーションアダプタを設計し、所定のビデオに微調整する。
論文 参考訳(メタデータ) (2023-12-07T16:57:26Z) - Story-to-Motion: Synthesizing Infinite and Controllable Character
Animation from Long Text [14.473103773197838]
ストーリー・トゥ・モーション(Story-to-Motion)と呼ばれる新しいタスクは、文字が長いテキスト記述に基づいて特定の動作を行う必要があるときに発生する。
文字制御とテキスト・トゥ・モーションのこれまでの研究は、関連する側面に対処してきたが、包括的解決はいまだ解明されていない。
本稿では,制御可能で無限に長い動きと,入力テキストに整合した軌跡を生成する新しいシステムを提案する。
論文 参考訳(メタデータ) (2023-11-13T16:22:38Z) - StoryBench: A Multifaceted Benchmark for Continuous Story Visualization [42.439670922813434]
StoryBench: テキストとビデオのモデルを確実に評価する、新しい、挑戦的なマルチタスクベンチマーク。
我々のベンチマークには、アクション実行、ストーリー継続、ストーリー生成という難易度を高める3つのビデオ生成タスクが含まれている。
従来の動画キャプションから生成したストーリーライクなデータに基づくトレーニングの利点を,小型ながら強力なテキスト・ビデオベースラインで評価した。
論文 参考訳(メタデータ) (2023-08-22T17:53:55Z) - Playable Environments: Video Manipulation in Space and Time [98.0621309257937]
再生可能な環境 - 空間と時間におけるインタラクティブなビデオ生成と操作のための新しい表現。
提案フレームワークでは,1枚の画像を推論時に生成し,対象物を3次元に移動させ,所望のアクションを連続して生成する。
提案手法は,各フレームの環境状態を構築し,提案したアクションモジュールで操作し,ボリュームレンダリングで画像空間に復号化することができる。
論文 参考訳(メタデータ) (2022-03-03T18:51:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。