論文の概要: ShotAdapter: Text-to-Multi-Shot Video Generation with Diffusion Models
- arxiv url: http://arxiv.org/abs/2505.07652v1
- Date: Mon, 12 May 2025 15:22:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.450238
- Title: ShotAdapter: Text-to-Multi-Shot Video Generation with Diffusion Models
- Title(参考訳): ShotAdapter:拡散モデルを用いたテキスト・ツー・マルチショットビデオ生成
- Authors: Ozgur Kara, Krishna Kumar Singh, Feng Liu, Duygu Ceylan, James M. Rehg, Tobias Hinz,
- Abstract要約: 現在の拡散ベースのテキスト・ツー・ビデオ法は、単一のショットの短いビデオクリップを生成するに限られている。
本稿では,テキスト・ツー・マルチショットビデオ生成を実現するために,データセット収集パイプラインとビデオ拡散モデルのアーキテクチャ拡張を含むフレームワークを提案する。
提案手法により,全フレームにまたがるマルチショット映像を単一のビデオとして生成することが可能となる。
- 参考スコア(独自算出の注目度): 37.70850513700251
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Current diffusion-based text-to-video methods are limited to producing short video clips of a single shot and lack the capability to generate multi-shot videos with discrete transitions where the same character performs distinct activities across the same or different backgrounds. To address this limitation we propose a framework that includes a dataset collection pipeline and architectural extensions to video diffusion models to enable text-to-multi-shot video generation. Our approach enables generation of multi-shot videos as a single video with full attention across all frames of all shots, ensuring character and background consistency, and allows users to control the number, duration, and content of shots through shot-specific conditioning. This is achieved by incorporating a transition token into the text-to-video model to control at which frames a new shot begins and a local attention masking strategy which controls the transition token's effect and allows shot-specific prompting. To obtain training data we propose a novel data collection pipeline to construct a multi-shot video dataset from existing single-shot video datasets. Extensive experiments demonstrate that fine-tuning a pre-trained text-to-video model for a few thousand iterations is enough for the model to subsequently be able to generate multi-shot videos with shot-specific control, outperforming the baselines. You can find more details in https://shotadapter.github.io/
- Abstract(参考訳): 現在の拡散ベースのテキスト・トゥ・ビデオ法は、単一のショットの短いビデオクリップの生成に限られており、同じキャラクタが同一または異なるバックグラウンドで異なるアクティビティを実行する離散的な遷移を伴うマルチショットビデオを生成する能力が欠如している。
この制限に対処するため,テキスト・ツー・マルチショットビデオ生成を実現するために,データセット収集パイプラインとビデオ拡散モデルのアーキテクチャ拡張を含むフレームワークを提案する。
提案手法では,全撮影フレームに全注意を払って単一のビデオとしてマルチショット映像を生成でき,文字と背景の一貫性を確保でき,ユーザーはショット固有の条件で撮影の回数,期間,内容を制御することができる。
これは、トランジショントークンをテキストからビデオモデルに組み込んで、新しいショットの開始フレームを制御するとともに、トランジショントークンの効果を制御し、ショット固有のプロンプトを可能にするローカルアテンションマスキング戦略によって実現される。
トレーニングデータを得るために,既存のシングルショットビデオデータセットからマルチショットビデオデータセットを構築するための,新しいデータ収集パイプラインを提案する。
大規模な実験では、数千回の反復で事前訓練されたテキスト・ビデオ・モデルを微調整すれば、その後、ショット固有の制御でマルチショット・ビデオを生成することができ、ベースラインよりも優れることを示した。
詳細はhttps://shotadapter.github.io/で確認できる。
関連論文リスト
- Long Context Tuning for Video Generation [63.060794860098795]
Long Context Tuning (LCT) は、訓練済みのシングルショットビデオ拡散モデルのコンテキストウィンドウを拡張する訓練パラダイムである。
本手法は、シーン内のすべてのショットを包含するために、個々のショットからフルアテンションメカニズムを拡張する。
実験では、コヒーレントなマルチショットシーンを実証し、合成生成やインタラクティブショット拡張など、新たな能力を示す。
論文 参考訳(メタデータ) (2025-03-13T17:40:07Z) - Video Diffusion Transformers are In-Context Learners [31.736838809714726]
本稿では,ビデオ拡散変換器のコンテキスト内機能を実現するためのソリューションについて検討する。
本稿では,テキスト内生成を利用するための簡単なパイプラインを提案する: (textbfii$) ビデオは,空間的あるいは時間的次元に沿って行われる。
当社のフレームワークは,研究コミュニティにとって貴重なツールであり,製品レベルの制御可能なビデオ生成システムを進化させる上で重要な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-14T10:39:55Z) - Mind the Time: Temporally-Controlled Multi-Event Video Generation [65.05423863685866]
時間制御を備えたマルチイベントビデオジェネレータMinTを提案する。
私たちの重要な洞察は、各イベントを生成されたビデオの特定の期間にバインドすることで、モデルが一度にひとつのイベントに集中できるようにすることです。
文献の中ではじめて、我々のモデルは生成されたビデオのイベントのタイミングを制御できる。
論文 参考訳(メタデータ) (2024-12-06T18:52:20Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [70.61101071902596]
現在のビデオ生成モデルは短いクリップで優れているが、解離した視覚力学と破折したストーリーラインのため、凝集性のある複数ショットの物語を生成できない。
一つの文から複数ショットのビデオ合成を自動化する,ステップバイステップのフレームワークであるVideoGen-of-Thought (VGoT)を紹介した。
VGoTは、ショット内の顔の一貫性が20.4%、スタイルの一貫性が17.4%向上するマルチショットビデオを生成する。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z) - VideoStudio: Generating Consistent-Content and Multi-Scene Videos [88.88118783892779]
VideoStudioは、一貫したコンテンツとマルチシーンのビデオ生成のためのフレームワークである。
VideoStudioはLarge Language Models (LLM)を活用して、入力プロンプトを総合的なマルチシーンスクリプトに変換する。
VideoStudioは、視覚的品質、コンテンツ整合性、ユーザの好みといった点で、SOTAビデオ生成モデルよりも優れています。
論文 参考訳(メタデータ) (2024-01-02T15:56:48Z) - MEVG: Multi-event Video Generation with Text-to-Video Models [18.06640097064693]
本稿では,ユーザから複数の個々の文が与えられた複数のイベントを示すビデオを生成する,拡散に基づく新しいビデオ生成手法を提案する。
本手法は, 微調整処理を伴わずに, 事前学習したテキスト・ビデオ生成モデルを使用するため, 大規模なビデオデータセットを必要としない。
提案手法は,コンテンツとセマンティクスの時間的コヒーレンシーの観点から,他のビデオ生成モデルよりも優れている。
論文 参考訳(メタデータ) (2023-12-07T06:53:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。