論文の概要: Text-to-Edit: Controllable End-to-End Video Ad Creation via Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2501.05884v1
- Date: Fri, 10 Jan 2025 11:35:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:27:25.589145
- Title: Text-to-Edit: Controllable End-to-End Video Ad Creation via Multimodal LLMs
- Title(参考訳): テキスト・トゥ・編集:マルチモーダルLCMによる制御可能なエンド・ツー・エンドビデオ広告作成
- Authors: Dabing Cheng, Haosen Zhan, Xingchen Zhao, Guisheng Liu, Zemin Li, Jinghui Xie, Zhao Song, Weiguo Feng, Bingyue Peng,
- Abstract要約: ショートビデオコンテンツの指数関数的成長は、ビデオ編集の効率的で自動化されたソリューションの必要性の高まりを浮き彫りにした。
本稿では,最終的な映像コンテンツ編集の正確な制御を実現する,革新的なエンドツーエンド基盤フレームワークを提案する。
- 参考スコア(独自算出の注目度): 6.300563383392837
- License:
- Abstract: The exponential growth of short-video content has ignited a surge in the necessity for efficient, automated solutions to video editing, with challenges arising from the need to understand videos and tailor the editing according to user requirements. Addressing this need, we propose an innovative end-to-end foundational framework, ultimately actualizing precise control over the final video content editing. Leveraging the flexibility and generalizability of Multimodal Large Language Models (MLLMs), we defined clear input-output mappings for efficient video creation. To bolster the model's capability in processing and comprehending video content, we introduce a strategic combination of a denser frame rate and a slow-fast processing technique, significantly enhancing the extraction and understanding of both temporal and spatial video information. Furthermore, we introduce a text-to-edit mechanism that allows users to achieve desired video outcomes through textual input, thereby enhancing the quality and controllability of the edited videos. Through comprehensive experimentation, our method has not only showcased significant effectiveness within advertising datasets, but also yields universally applicable conclusions on public datasets.
- Abstract(参考訳): ショートビデオコンテンツの指数関数的な成長は、ビデオ編集の効率的で自動化されたソリューションの必要性を増し、ユーザの要求に応じてビデオを理解し、編集をカスタマイズする必要性から生じる課題を浮き彫りにした。
このニーズに対処するために、我々は、最終的に最終映像コンテンツ編集の正確な制御を実現する革新的なエンドツーエンド基盤フレームワークを提案する。
MLLM(Multimodal Large Language Models)の柔軟性と一般化性を活用して,効率的なビデオ生成のための入力出力マッピングを明確化する。
映像コンテンツの処理・理解におけるモデルの能力を高めるため,より高密度なフレームレートと低速な処理手法の戦略的組み合わせを導入し,時間的・空間的な映像情報の抽出・理解を著しく向上させる。
さらに,テキスト入力による所望のビデオ出力を実現するためのテキスト編集機構を導入し,編集ビデオの品質と制御性を向上させる。
総合的な実験を通じて,本手法は,広告データセットにおいて有意な有効性を示しただけでなく,公開データセット上で広く適用可能な結論を得た。
関連論文リスト
- Prompt-A-Video: Prompt Your Video Diffusion Model via Preference-Aligned LLM [54.2320450886902]
テキスト・ビデオ・モデルは高品質のテキスト・ビデオ・ペアを最適化することで顕著な進歩を遂げた。
現在の精製の自動化手法は、モダリティ・一貫性、コスト分散、モデルウナウエアといった課題に直面する。
Prompt-A-Videoは、特定のビデオ拡散モデルに合わせた、ビデオ中心、労働自由、調整されたプロンプトの製作に優れる。
論文 参考訳(メタデータ) (2024-12-19T18:32:21Z) - SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - Realizing Video Summarization from the Path of Language-based Semantic Understanding [19.825666473712197]
本稿では,Mixture of Experts(MoE)パラダイムに触発された新しいビデオ要約フレームワークを提案する。
提案手法は,複数のビデオLLMを統合し,包括的で一貫性のあるテキスト要約を生成する。
論文 参考訳(メタデータ) (2024-10-06T15:03:22Z) - Interpolating Video-LLMs: Toward Longer-sequence LMMs in a Training-free Manner [53.671484175063995]
ビデオ-LLMはショートビデオの処理のために事前訓練されており、長いビデオコンテンツを理解するための幅広いアプリケーションを制限する。
固定ビデオエンコーダとアライメントプロジェクタの制約を回避するための代替ビデオトークン再構成手法を提案する。
論文 参考訳(メタデータ) (2024-09-19T17:59:55Z) - OmAgent: A Multi-modal Agent Framework for Complex Video Understanding with Task Divide-and-Conquer [14.503628667535425]
広範なビデオの処理は、膨大なデータと処理要求のために大きな課題をもたらします。
我々はOmAgentを開発し、特定のクエリの関連ビデオフレームを効率的に保存し、検索する。
自律推論が可能なDivide-and-Conquer Loopを備えている。
より高度な自律性と堅牢なツールコールシステムを備えており、さらに複雑なタスクを達成できます。
論文 参考訳(メタデータ) (2024-06-24T13:05:39Z) - Consistent Video-to-Video Transfer Using Synthetic Dataset [12.323784941805519]
テキストベースのビデオ・ビデオ編集のための,新しい,効率的なアプローチを提案する。
私たちのアプローチの核心は、ビデオ間転送タスクに適した合成ペアビデオデータセットです。
Instruct Pix2Pix's image transfer by editing instruction, we adapt this paradigm to the video domain。
論文 参考訳(メタデータ) (2023-11-01T01:20:12Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts [116.05656635044357]
我々はMake-A-Protagonistと呼ばれる一般的なビデオ編集フレームワークを提案する。
具体的には、複数の専門家を利用してソース映像を解析し、視覚的・テキスト的手がかりをターゲットとし、視覚的・テキスト的映像生成モデルを提案する。
その結果,Make-A-Protagonistの多種多様な編集能力を実証した。
論文 参考訳(メタデータ) (2023-05-15T17:59:03Z) - Transcript to Video: Efficient Clip Sequencing from Texts [65.87890762420922]
Transcript-to-Video - テキストを入力として使用する弱教師付きフレームワークで、広範なショットコレクションからビデオシーケンスを自動的に生成する。
具体的には、視覚言語表現とモデルショットシークエンシングスタイルを学習するためのコンテンツ検索モジュールとテンポラルコヒーレントモジュールを提案する。
高速な推論のために,リアルタイムビデオクリップシークエンシングのための効率的な検索手法を提案する。
論文 参考訳(メタデータ) (2021-07-25T17:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。