論文の概要: From Long Videos to Engaging Clips: A Human-Inspired Video Editing Framework with Multimodal Narrative Understanding
- arxiv url: http://arxiv.org/abs/2507.02790v1
- Date: Thu, 03 Jul 2025 16:54:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.673971
- Title: From Long Videos to Engaging Clips: A Human-Inspired Video Editing Framework with Multimodal Narrative Understanding
- Title(参考訳): ロングビデオからエンゲージングクリップ:マルチモーダルなナラティブ理解を備えたヒューマンインスパイアされたビデオ編集フレームワーク
- Authors: Xiangfeng Wang, Xiao Li, Yadong Wei, Xueyu Song, Yang Song, Xiaoqiang Xia, Fangrui Zeng, Zaiyi Chen, Liu Liu, Gu Xu, Tong Xu,
- Abstract要約: ヒューマンインスパイアされた自動ビデオ編集フレームワーク(HIVE)を提案する。
提案手法は,多モーダル大言語モデルによる文字抽出,対話解析,物語要約を取り入れたものである。
我々のフレームワークは、一般的な編集タスクと広告指向編集タスクの両方において、既存のベースラインを一貫して上回ります。
- 参考スコア(独自算出の注目度): 17.769963004697047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid growth of online video content, especially on short video platforms, has created a growing demand for efficient video editing techniques that can condense long-form videos into concise and engaging clips. Existing automatic editing methods predominantly rely on textual cues from ASR transcripts and end-to-end segment selection, often neglecting the rich visual context and leading to incoherent outputs. In this paper, we propose a human-inspired automatic video editing framework (HIVE) that leverages multimodal narrative understanding to address these limitations. Our approach incorporates character extraction, dialogue analysis, and narrative summarization through multimodal large language models, enabling a holistic understanding of the video content. To further enhance coherence, we apply scene-level segmentation and decompose the editing process into three subtasks: highlight detection, opening/ending selection, and pruning of irrelevant content. To facilitate research in this area, we introduce DramaAD, a novel benchmark dataset comprising over 800 short drama episodes and 500 professionally edited advertisement clips. Experimental results demonstrate that our framework consistently outperforms existing baselines across both general and advertisement-oriented editing tasks, significantly narrowing the quality gap between automatic and human-edited videos.
- Abstract(参考訳): オンラインビデオコンテンツの急速な成長、特にショートビデオプラットフォームでは、長編動画を簡潔でエンゲージメントなクリップに凝縮できる効率的なビデオ編集技術への需要が高まっている。
既存の自動編集手法は、主にASRの文字起こしとエンドツーエンドのセグメント選択のテキストキューに依存しており、しばしばリッチな視覚的コンテキストを無視し、一貫性のない出力をもたらす。
本稿では,これらの制約に対処するために,マルチモーダルな物語理解を活用するヒューマンインスパイアされた自動ビデオ編集フレームワーク(HIVE)を提案する。
提案手法は,多モーダル大言語モデルによる文字抽出,対話解析,物語要約を取り入れ,映像内容の包括的理解を可能にする。
さらにコヒーレンスを高めるために、シーンレベルのセグメンテーションを適用し、編集プロセスをハイライト検出、オープン/エンド選択、無関係コンテンツのプルーニングという3つのサブタスクに分解する。
そこで本研究では,800回以上の短編エピソードと500回以上のプロフェッショナル編集された広告クリップからなる新しいベンチマークデータセットであるDraamaADを紹介する。
実験の結果,本フレームワークは,一般的な編集作業と広告指向編集作業の両方において,既存のベースラインを一貫して上回り,自動編集ビデオと人為編集ビデオの質差を著しく狭めていることがわかった。
関連論文リスト
- REGen: Multimodal Retrieval-Embedded Generation for Long-to-Short Video Editing [56.992916488077476]
本研究では,長い入力ビデオから抽出した埋め込みビデオ挿入を伴うコヒーレントな物語を特徴付けるショートを生成するための新しいビデオ編集モデルについて検討する。
本稿では,大規模言語モデルにおいて,コヒーレントなナラティブを維持しつつ,多モーダルなリソースを引用できる新しい検索組込み生成フレームワークを提案する。
提案手法は,コヒーレントなナラティブを維持しつつ,短いビデオクリップを効果的に挿入できることを示す。
論文 参考訳(メタデータ) (2025-05-24T21:36:49Z) - Text-to-Edit: Controllable End-to-End Video Ad Creation via Multimodal LLMs [6.300563383392837]
ショートビデオコンテンツの指数関数的成長は、ビデオ編集の効率的で自動化されたソリューションの必要性の高まりを浮き彫りにした。
本稿では,最終的な映像コンテンツ編集の正確な制御を実現する,革新的なエンドツーエンド基盤フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-10T11:35:43Z) - Text-Video Multi-Grained Integration for Video Moment Montage [13.794791614348084]
ビデオモーメント・モンタージュ(VMM)と呼ばれる新しいタスクは、事前に提案されたナレーションテキストに基づいて、対応するビデオセグメントを正確に見つけることを目的としている。
我々は,スクリプトからテキスト機能を効率的に融合させる新しいテキストテキスト-ビデオ多言語統合手法 (TV-MGI) を提案する。
論文 参考訳(メタデータ) (2024-12-12T13:40:59Z) - Multi-Modal Video Topic Segmentation with Dual-Contrastive Domain
Adaptation [74.51546366251753]
ビデオトピックセグメンテーションは、ビデオの基礎となる粗い粒度のセマンティック構造を明らかにする。
ビデオの書き起こしとフレームの両方を利用するマルチモーダルなビデオトピックセグメンタを提案する。
提案手法は, 精度と転送性の両方の観点から, ベースライン法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-11-30T21:59:05Z) - Gen-L-Video: Multi-Text to Long Video Generation via Temporal
Co-Denoising [43.35391175319815]
本研究では,複数テキスト条件付き長編ビデオの生成と編集にテキスト駆動能力を拡張する可能性について検討する。
我々は,市販のビデオ拡散モデルの拡張が可能なGen-L-Videoという新しいパラダイムを導入する。
実験結果から,本手法は映像拡散モデルの生成・編集能力を著しく拡張することが明らかとなった。
論文 参考訳(メタデータ) (2023-05-29T17:38:18Z) - Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts [116.05656635044357]
我々はMake-A-Protagonistと呼ばれる一般的なビデオ編集フレームワークを提案する。
具体的には、複数の専門家を利用してソース映像を解析し、視覚的・テキスト的手がかりをターゲットとし、視覚的・テキスト的映像生成モデルを提案する。
その結果,Make-A-Protagonistの多種多様な編集能力を実証した。
論文 参考訳(メタデータ) (2023-05-15T17:59:03Z) - Transcript to Video: Efficient Clip Sequencing from Texts [65.87890762420922]
Transcript-to-Video - テキストを入力として使用する弱教師付きフレームワークで、広範なショットコレクションからビデオシーケンスを自動的に生成する。
具体的には、視覚言語表現とモデルショットシークエンシングスタイルを学習するためのコンテンツ検索モジュールとテンポラルコヒーレントモジュールを提案する。
高速な推論のために,リアルタイムビデオクリップシークエンシングのための効率的な検索手法を提案する。
論文 参考訳(メタデータ) (2021-07-25T17:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。