論文の概要: Resource-Efficient Motion Control for Video Generation via Dynamic Mask Guidance
- arxiv url: http://arxiv.org/abs/2503.18386v1
- Date: Mon, 24 Mar 2025 06:53:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 16:32:17.139446
- Title: Resource-Efficient Motion Control for Video Generation via Dynamic Mask Guidance
- Title(参考訳): 動的マスク誘導による映像生成のための資源効率の良いモーション制御
- Authors: Sicong Feng, Jielong Yang, Li Peng,
- Abstract要約: マスク誘導ビデオ生成は、マスクモーションシーケンスを介して映像生成を制御することができる。
提案モデルは,テキスト位置マッチングと移動軌跡制御のための前景マスクを組み込むことにより,既存のアーキテクチャを改良する。
このアプローチは、ビデオ編集やアートビデオ生成などの様々なビデオ生成タスクに優れ、一貫性と品質の点で従来の手法よりも優れている。
- 参考スコア(独自算出の注目度): 2.5941932242768457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in diffusion models bring new vitality to visual content creation. However, current text-to-video generation models still face significant challenges such as high training costs, substantial data requirements, and difficulties in maintaining consistency between given text and motion of the foreground object. To address these challenges, we propose mask-guided video generation, which can control video generation through mask motion sequences, while requiring limited training data. Our model enhances existing architectures by incorporating foreground masks for precise text-position matching and motion trajectory control. Through mask motion sequences, we guide the video generation process to maintain consistent foreground objects throughout the sequence. Additionally, through a first-frame sharing strategy and autoregressive extension approach, we achieve more stable and longer video generation. Extensive qualitative and quantitative experiments demonstrate that this approach excels in various video generation tasks, such as video editing and generating artistic videos, outperforming previous methods in terms of consistency and quality. Our generated results can be viewed in the supplementary materials.
- Abstract(参考訳): 近年の拡散モデルの発展は、視覚コンテンツ作成に新たな活力をもたらす。
しかし、現在のテキスト・ビデオ生成モデルは、高いトレーニングコスト、かなりのデータ要件、与えられたテキストと前景オブジェクトの動作との整合性を維持することの難しさなど、大きな課題に直面している。
これらの課題に対処するために,限られたトレーニングデータを必要としながら,マスク動作シーケンスによる映像生成を制御可能なマスク誘導映像生成を提案する。
提案モデルは,テキスト位置マッチングと移動軌跡制御のための前景マスクを組み込むことにより,既存のアーキテクチャを改良する。
マスクの動作シーケンスを通じて,映像生成過程をガイドし,一貫した前景オブジェクトを連続的に維持する。
さらに,第1フレーム共有戦略と自己回帰拡張アプローチにより,より安定し,より長いビデオ生成を実現する。
大規模な質的および定量的実験により、このアプローチはビデオ編集や芸術的ビデオ生成といった様々なビデオ生成タスクに優れており、一貫性と品質の点で従来の手法よりも優れていたことが示されている。
生成された結果は補足資料で見ることができる。
関連論文リスト
- RAGME: Retrieval Augmented Video Generation for Enhanced Motion Realism [73.38167494118746]
生成ビデオにおける動きのリアリズムを改善するための枠組みを提案する。
生成フェーズにおける検索機構の導入を提唱する。
私たちのパイプラインは、どんなテキスト間拡散モデルにも適用できるように設計されています。
論文 参考訳(メタデータ) (2025-04-09T08:14:05Z) - CINEMA: Coherent Multi-Subject Video Generation via MLLM-Based Guidance [34.345125922868]
MLLM(Multimodal Large Language Model)を利用したコヒーレントなマルチオブジェクトビデオ生成フレームワークCINEMAを提案する。
提案手法では,対象画像とテキストエンティティとの明示的な対応の必要性を排除し,曖昧さを軽減し,アノテーションの労力を削減する。
当社のフレームワークはさまざまな主題に適応でき、パーソナライズされたコンテンツ作成の柔軟性が向上する。
論文 参考訳(メタデータ) (2025-03-13T14:07:58Z) - VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control [47.34885131252508]
ビデオのインペイントは、腐敗したビデオコンテンツを復元することを目的としている。
マスク付きビデオを処理するための新しいデュアルストリームパラダイムVideoPainterを提案する。
また,任意の長さの映像を描ける新しいターゲット領域ID再サンプリング手法も導入する。
論文 参考訳(メタデータ) (2025-03-07T17:59:46Z) - ASurvey: Spatiotemporal Consistency in Video Generation [72.82267240482874]
動的視覚生成手法を利用した映像生成手法は人工知能生成コンテンツ(AIGC)の境界を押し下げる
最近の研究は、映像生成における時間的一貫性の問題に対処することを目的としているが、この観点からの文献レビューはほとんど行われていない。
基礎モデル,情報表現,生成スキーム,後処理技術,評価指標の5つの重要な側面を網羅して,映像生成の最近の進歩を体系的に検討した。
論文 参考訳(メタデータ) (2025-02-25T05:20:51Z) - VideoTetris: Towards Compositional Text-to-Video Generation [45.395598467837374]
VideoTetrisは、合成T2V生成を可能にするフレームワークである。
我々は, VideoTetrisがT2V生成において, 印象的な質的, 定量的な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2024-06-06T17:25:33Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - VideoDreamer: Customized Multi-Subject Text-to-Video Generation with Disen-Mix Finetuning on Language-Video Foundation Models [43.46536102838717]
VideoDreamerは、カスタマイズされたマルチオブジェクトのテキスト・ツー・ビデオ生成のための新しいフレームワークである。
与えられた複数の被験者の視覚的特徴を忠実に保存する、時間的に一貫したテキスト誘導ビデオを生成することができる。
論文 参考訳(メタデータ) (2023-11-02T04:38:50Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。