論文の概要: VCoME: Verbal Video Composition with Multimodal Editing Effects
- arxiv url: http://arxiv.org/abs/2407.04697v1
- Date: Fri, 5 Jul 2024 17:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 12:31:56.243106
- Title: VCoME: Verbal Video Composition with Multimodal Editing Effects
- Title(参考訳): VCoME:マルチモーダル編集機能を備えた言語ビデオコンポジション
- Authors: Weibo Gong, Xiaojie Jin, Xin Li, Dongliang He, Xinglong Wu,
- Abstract要約: 編集効果を考慮した音声合成の新しい課題について紹介する。
本課題は,マルチモーダル編集効果を統合することで,コヒーレントで視覚的に魅力的なビデオを生成することである。
ビデオ合成のための編集効果を生成するために,大規模なマルチモーダルモデルを用いたVCoMEを提案する。
- 参考スコア(独自算出の注目度): 26.302461834158596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Verbal videos, featuring voice-overs or text overlays, provide valuable content but present significant challenges in composition, especially when incorporating editing effects to enhance clarity and visual appeal. In this paper, we introduce the novel task of verbal video composition with editing effects. This task aims to generate coherent and visually appealing verbal videos by integrating multimodal editing effects across textual, visual, and audio categories. To achieve this, we curate a large-scale dataset of video effects compositions from publicly available sources. We then formulate this task as a generative problem, involving the identification of appropriate positions in the verbal content and the recommendation of editing effects for these positions. To address this task, we propose VCoME, a general framework that employs a large multimodal model to generate editing effects for video composition. Specifically, VCoME takes in the multimodal video context and autoregressively outputs where to apply effects within the verbal content and which effects are most appropriate for each position. VCoME also supports prompt-based control of composition density and style, providing substantial flexibility for diverse applications. Through extensive quantitative and qualitative evaluations, we clearly demonstrate the effectiveness of VCoME. A comprehensive user study shows that our method produces videos of professional quality while being 85$\times$ more efficient than professional editors.
- Abstract(参考訳): 音声オーバーやテキストオーバーレイを特徴とする言語ビデオは、貴重なコンテンツを提供するが、特に明瞭さと視覚的魅力を高めるために編集効果を取り入れた場合、構成において重要な課題を提示する。
本稿では,編集効果を考慮した音声合成の新しい課題について紹介する。
本課題は,テキスト,視覚,音声のカテゴリにまたがるマルチモーダル編集効果を統合することで,協調的で視覚的に魅力的な音声ビデオを生成することを目的とする。
そこで我々は,公開資料から映像効果合成の大規模データセットをキュレートする。
次に,この課題を生成問題として定式化し,言語内容中の適切な位置の同定と,それらの位置に対する編集効果の推奨を含む。
この課題に対処するため,ビデオ合成のための編集効果を生成するために,大規模なマルチモーダルモデルを用いた一般的なフレームワークであるVCoMEを提案する。
具体的には、VCoMEはマルチモーダルビデオのコンテキストを取り入れ、各位置においてどの効果が最も適しているかを自動回帰出力する。
VCoMEはまた、組成密度とスタイルのプロンプトベースの制御をサポートし、多様なアプリケーションにかなりの柔軟性を提供する。
定量的および質的な評価を通じて, VCoMEの有効性を明らかにした。
包括的ユーザスタディでは,プロの編集者よりも85$\times$効率の良い動画を制作する。
関連論文リスト
- Text-to-Edit: Controllable End-to-End Video Ad Creation via Multimodal LLMs [6.300563383392837]
ショートビデオコンテンツの指数関数的成長は、ビデオ編集の効率的で自動化されたソリューションの必要性の高まりを浮き彫りにした。
本稿では,最終的な映像コンテンツ編集の正確な制御を実現する,革新的なエンドツーエンド基盤フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-10T11:35:43Z) - DIVE: Taming DINO for Subject-Driven Video Editing [49.090071984272576]
DINO-Guided Video Editing (DIVE) は、ソースビデオの主題駆動編集を容易にするために設計されたフレームワークである。
DIVEは、ソースビデオの運動軌跡に合わせるためにDINO機能を使用している。
正確な主題編集のために、DIVEは参照画像のDINO特徴を事前訓練されたテキスト・ツー・イメージモデルに組み込む。
論文 参考訳(メタデータ) (2024-12-04T14:28:43Z) - Portrait Video Editing Empowered by Multimodal Generative Priors [39.747581584889495]
マルチモーダルプロンプトを用いた一貫した表現型スタイリングを実現する強力なポートレートビデオ編集手法であるPortraitGenを紹介する。
提案手法は,大規模2次元生成モデルから抽出した知識によるマルチモーダル入力を取り入れたものである。
また,表情類似性指導と顔認識画像編集モジュールを内蔵し,反復的データセット更新に伴う劣化問題を効果的に軽減する。
論文 参考訳(メタデータ) (2024-09-20T15:45:13Z) - I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。
I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文 参考訳(メタデータ) (2024-05-26T11:47:40Z) - ReVideo: Remake a Video with Motion and Content Control [67.5923127902463]
本稿では,コンテンツと動画の両方の仕様により,特定の領域における正確な映像編集を可能にするビデオリメイク(VideoRe)を提案する。
VideoReは、コンテンツとモーションコントロールの結合とトレーニングの不均衡を含む新しいタスクに対処する。
また,本手法は,特定のトレーニングを変更することなく,その柔軟性と堅牢性を示すことなく,これらのアプリケーションをマルチエリア編集にシームレスに拡張することができる。
論文 参考訳(メタデータ) (2024-05-22T17:46:08Z) - MagicProp: Diffusion-based Video Editing via Motion-aware Appearance
Propagation [74.32046206403177]
MagicPropは、ビデオ編集プロセスを、外観編集とモーション対応の外観伝搬という2つのステージに分割する。
第一段階では、MagicPropは入力ビデオから単一のフレームを選択し、フレームの内容やスタイルを変更するために画像編集技術を適用する。
第2段階では、MagicPropは編集されたフレームを外観参照として使用し、自動回帰レンダリングアプローチを使用して残りのフレームを生成する。
論文 参考訳(メタデータ) (2023-09-02T11:13:29Z) - MagicEdit: High-Fidelity and Temporally Coherent Video Editing [70.55750617502696]
MagicEditは、テキスト誘導ビデオ編集タスクの驚くほどシンプルで効果的なソリューションです。
トレーニング中,コンテンツ,構造,動作信号の学習を明示的に切り離すことで,高忠実で時間的に一貫した映像翻訳を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-08-28T17:56:22Z) - Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts [116.05656635044357]
我々はMake-A-Protagonistと呼ばれる一般的なビデオ編集フレームワークを提案する。
具体的には、複数の専門家を利用してソース映像を解析し、視覚的・テキスト的手がかりをターゲットとし、視覚的・テキスト的映像生成モデルを提案する。
その結果,Make-A-Protagonistの多種多様な編集能力を実証した。
論文 参考訳(メタデータ) (2023-05-15T17:59:03Z) - AutoTransition: Learning to Recommend Video Transition Effects [20.384463765702417]
自動ビデオ遷移レコメンデーション(VTR)の実施について紹介する。
VTRには生のビデオ撮影とオーディオが連続して提供され、隣接する2つのショットごとにビデオ遷移を推奨する。
本稿では,2つの部分からなる新しいマルチモーダルマッチングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-27T12:00:42Z) - Transcript to Video: Efficient Clip Sequencing from Texts [65.87890762420922]
Transcript-to-Video - テキストを入力として使用する弱教師付きフレームワークで、広範なショットコレクションからビデオシーケンスを自動的に生成する。
具体的には、視覚言語表現とモデルショットシークエンシングスタイルを学習するためのコンテンツ検索モジュールとテンポラルコヒーレントモジュールを提案する。
高速な推論のために,リアルタイムビデオクリップシークエンシングのための効率的な検索手法を提案する。
論文 参考訳(メタデータ) (2021-07-25T17:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。