論文の概要: AutoCut: End-to-end advertisement video editing based on multimodal discretization and controllable generation
- arxiv url: http://arxiv.org/abs/2603.28366v1
- Date: Mon, 30 Mar 2026 12:35:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.391379
- Title: AutoCut: End-to-end advertisement video editing based on multimodal discretization and controllable generation
- Title(参考訳): AutoCut:マルチモーダル離散化と制御可能な生成に基づくエンドツーエンド広告ビデオ編集
- Authors: Milton Zhou, Sizhong Qin, Yongzhi Li, Quan Chen, Peng Jiang,
- Abstract要約: AutoCutは、マルチモーダルな離散化と制御可能な編集に基づく、エンドツーエンドの広告ビデオ編集フレームワークである。
AutoCutはビデオとオーディオの特徴を抽出するために専用エンコーダを使用し、残差ベクトル量子化を適用してそれらをテキスト表現と整合した統一トークンに識別する。
完全なプロダクションパイプラインは、予測されたトークンシーケンスをデプロイ可能な長ビデオ出力に変換する。
- 参考スコア(独自算出の注目度): 9.849693696818495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Short-form videos have become a primary medium for digital advertising, requiring scalable and efficient content creation. However, current workflows and AI tools remain disjoint and modality-specific, leading to high production costs and low overall efficiency. To address this issue, we propose AutoCut, an end-to-end advertisement video editing framework based on multimodal discretization and controllable editing. AutoCut employs dedicated encoders to extract video and audio features, then applies residual vector quantization to discretize them into unified tokens aligned with textual representations, constructing a shared video-audio-text token space. Built upon a foundation model, we further develop a multimodal large language model for video editing through combined multimodal alignment and supervised fine-tuning, supporting tasks covering video selection and ordering, script generation, and background music selection within a unified editing framework. Finally, a complete production pipeline converts the predicted token sequences into deployable long video outputs. Experiments on real-world advertisement datasets show that AutoCut reduces production cost and iteration time while substantially improving consistency and controllability, paving the way for scalable video creation.
- Abstract(参考訳): ショートフォームビデオはデジタル広告の主要な媒体となり、スケーラブルで効率的なコンテンツ制作を必要としている。
しかし、現在のワークフローとAIツールは相反し、モダリティに特化しているため、高い生産コストと全体的な効率性が低下する。
この問題に対処するために,マルチモーダルな離散化と制御可能な編集に基づくエンドツーエンドの広告ビデオ編集フレームワークであるAutoCutを提案する。
AutoCutはビデオとオーディオの特徴を抽出するために専用エンコーダを使用し、残差ベクトル量子化を適用してそれらをテキスト表現と整合した統一トークンに識別し、共有ビデオオーディオテキストトークン空間を構築する。
基礎モデルに基づいて,複数モーダルアライメントと教師付き微調整による映像編集のための多モーダル大言語モデルをさらに発展させ,映像選択と順序付け,スクリプト生成,背景音楽選択などのタスクを統合編集フレームワーク内でサポートする。
最後に、完全なプロダクションパイプラインは、予測されたトークンシーケンスをデプロイ可能な長ビデオ出力に変換する。
実世界の広告データセットの実験によると、AutoCutは生産コストとイテレーション時間を削減し、一貫性と制御性を大幅に改善し、スケーラブルなビデオ作成の道を開く。
関連論文リスト
- Tele-Omni: a Unified Multimodal Framework for Video Generation and Editing [93.8111348452324]
Tele-Omniはビデオ生成と編集のための統合されたフレームワークで、マルチモーダルな指示に従う。
テキスト・ツー・ビデオ生成、画像・ビデオ生成、ファースト・ラスト・フレーム・ビデオ生成、イン・コンテクスト・ビデオ生成、およびイン・コンテクスト・ビデオ編集をサポートする。
論文 参考訳(メタデータ) (2026-02-10T10:01:16Z) - Taming Flow-based I2V Models for Creative Video Editing [64.67801702413122]
ビデオ編集は、ユーザーの意図に応じてビデオを編集することを目的としているが、まだまだ課題だ。
既存の画像条件付きビデオ編集手法の多くは、モデル固有の設計の逆変換を必要とするか、あるいは広範囲の最適化を必要とする。
Inversion-Free 方式である IF-V2V を提案し,ビデオ編集のためのオフザシェルフフローマッチングベースの I2V モデルを,計算オーバーヘッドの大きいものに適応させる。
論文 参考訳(メタデータ) (2025-09-26T05:57:04Z) - EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning [58.53074381801114]
イメージとビデオの生成と編集を単一のモデルで統合したフレームワークであるEditVerseを紹介する。
テキスト、画像、ビデオなどのすべてのモダリティを統一されたトークンシーケンスとして表現することで、EditVerseは、堅牢なインコンテキスト学習を実現するために自己アテンションを活用する。
多様なタスクや解像度をカバーする命令ベースのビデオ編集のための最初のベンチマークであるEditVerseBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T17:59:30Z) - From Long Videos to Engaging Clips: A Human-Inspired Video Editing Framework with Multimodal Narrative Understanding [16.83482677439144]
ヒューマンインスパイアされた自動ビデオ編集フレームワーク(HIVE)を提案する。
提案手法は,多モーダル大言語モデルによる文字抽出,対話解析,物語要約を取り入れたものである。
我々のフレームワークは、一般的な編集タスクと広告指向編集タスクの両方において、既存のベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-07-03T16:54:32Z) - Text-to-Edit: Controllable End-to-End Video Ad Creation via Multimodal LLMs [6.300563383392837]
ショートビデオコンテンツの指数関数的成長は、ビデオ編集の効率的で自動化されたソリューションの必要性の高まりを浮き彫りにした。
本稿では,最終的な映像コンテンツ編集の正確な制御を実現する,革新的なエンドツーエンド基盤フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-10T11:35:43Z) - Video Diffusion Transformers are In-Context Learners [31.736838809714726]
本稿では,ビデオ拡散変換器のコンテキスト内機能を実現するためのソリューションについて検討する。
本稿では,テキスト内生成を利用するための簡単なパイプラインを提案する: (textbfii$) ビデオは,空間的あるいは時間的次元に沿って行われる。
当社のフレームワークは,研究コミュニティにとって貴重なツールであり,製品レベルの制御可能なビデオ生成システムを進化させる上で重要な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-14T10:39:55Z) - Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts [116.05656635044357]
我々はMake-A-Protagonistと呼ばれる一般的なビデオ編集フレームワークを提案する。
具体的には、複数の専門家を利用してソース映像を解析し、視覚的・テキスト的手がかりをターゲットとし、視覚的・テキスト的映像生成モデルを提案する。
その結果,Make-A-Protagonistの多種多様な編集能力を実証した。
論文 参考訳(メタデータ) (2023-05-15T17:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。