論文の概要: REGen: Multimodal Retrieval-Embedded Generation for Long-to-Short Video Editing
- arxiv url: http://arxiv.org/abs/2505.18880v1
- Date: Sat, 24 May 2025 21:36:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.717166
- Title: REGen: Multimodal Retrieval-Embedded Generation for Long-to-Short Video Editing
- Title(参考訳): REGen: 長短ビデオ編集のためのマルチモーダル検索組込みジェネレーション
- Authors: Weihan Xu, Yimeng Ma, Jingyue Huang, Yang Li, Wenye Ma, Taylor Berg-Kirkpatrick, Julian McAuley, Paul Pu Liang, Hao-Wen Dong,
- Abstract要約: 本研究では,長い入力ビデオから抽出した埋め込みビデオ挿入を伴うコヒーレントな物語を特徴付けるショートを生成するための新しいビデオ編集モデルについて検討する。
本稿では,大規模言語モデルにおいて,コヒーレントなナラティブを維持しつつ,多モーダルなリソースを引用できる新しい検索組込み生成フレームワークを提案する。
提案手法は,コヒーレントなナラティブを維持しつつ,短いビデオクリップを効果的に挿入できることを示す。
- 参考スコア(独自算出の注目度): 56.992916488077476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Short videos are an effective tool for promoting contents and improving knowledge accessibility. While existing extractive video summarization methods struggle to produce a coherent narrative, existing abstractive methods cannot `quote' from the input videos, i.e., inserting short video clips in their outputs. In this work, we explore novel video editing models for generating shorts that feature a coherent narrative with embedded video insertions extracted from a long input video. We propose a novel retrieval-embedded generation framework that allows a large language model to quote multimodal resources while maintaining a coherent narrative. Our proposed REGen system first generates the output story script with quote placeholders using a finetuned large language model, and then uses a novel retrieval model to replace the quote placeholders by selecting a video clip that best supports the narrative from a pool of candidate quotable video clips. We examine the proposed method on the task of documentary teaser generation, where short interview insertions are commonly used to support the narrative of a documentary. Our objective evaluations show that the proposed method can effectively insert short video clips while maintaining a coherent narrative. In a subjective survey, we show that our proposed method outperforms existing abstractive and extractive approaches in terms of coherence, alignment, and realism in teaser generation.
- Abstract(参考訳): ショートビデオは、コンテンツを促進し、知識のアクセシビリティを向上させる効果的なツールである。
既存の抽出ビデオ要約手法はコヒーレントな物語を生成するのに苦労するが、既存の抽象的手法は入力ビデオから「引用」することはできない。
本研究では,長い入力ビデオから抽出した埋め込みビデオ挿入を伴うコヒーレントな物語を特徴付けるショートを生成するための新しいビデオ編集モデルについて検討する。
本稿では,大規模言語モデルにおいて,コヒーレントなナラティブを維持しつつ,多モーダルなリソースを引用できる新しい検索組込み生成フレームワークを提案する。
提案するREGenシステムでは,まず,提案手法を用いて提案手法を用いて提案手法を用いて,提案手法を用いて提案手法を用いて,提案手法を用いて提案手法を検証し,提案手法を用いて提案手法を検証した。
本稿では,ドキュメンタリーティーザー生成作業における提案手法について検討し,ドキュメンタリーの物語を支援するために,短いインタビューの挿入が一般的であることを示す。
提案手法は,コヒーレントなナラティブを維持しつつ,短いビデオクリップを効果的に挿入できることを示す。
提案手法は, ティーザー生成におけるコヒーレンス, アライメント, リアリズムの観点から, 既存の抽象的, 抽出的アプローチよりも優れていることを示す。
関連論文リスト
- WikiVideo: Article Generation from Multiple Videos [67.59430517160065]
現実の出来事に関する複数のビデオから情報を集約する高レベルなウィキペディアスタイルの記事を自動的に作成する難題を提示する。
WikiVideoは、専門家が書いた記事と、記事の主張を裏付ける厳密な注釈付きビデオからなるベンチマークである。
複数のビデオから記事を作成するためのインタラクティブな手法である共同記事生成(CAG)を提案する。
論文 参考訳(メタデータ) (2025-04-01T16:22:15Z) - Language-Guided Self-Supervised Video Summarization Using Text Semantic Matching Considering the Diversity of the Video [22.60291297308379]
本研究では,映像要約タスクを自然言語処理(NLP)タスクに変換する可能性について検討する。
本手法は,ランク相関係数のSumMeデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-05-14T18:07:04Z) - Generative Video Diffusion for Unseen Novel Semantic Video Moment Retrieval [54.22321767540878]
ビデオモーメント検索(VMR)は、未トリミングビデオのテキストクエリに対応する最も可能性の高いビデオモーメントを見つけることを目的としている。
既存のメソッドのトレーニングは、多様で汎用的なVMRデータセットの欠如によって制限される。
生成的ビデオ拡散を探索するFVEと呼ばれる細粒度ビデオ編集フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-24T09:45:40Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z) - Zero-Shot Dense Video Captioning by Jointly Optimizing Text and Moment [10.567291051485194]
ゼロショット方式で高密度映像キャプションを行う新しい手法であるZeroTAを提案する。
テスト時に各入力ビデオ内のイベントをローカライズし,記述する。
論文 参考訳(メタデータ) (2023-07-05T23:01:26Z) - Gen-L-Video: Multi-Text to Long Video Generation via Temporal
Co-Denoising [43.35391175319815]
本研究では,複数テキスト条件付き長編ビデオの生成と編集にテキスト駆動能力を拡張する可能性について検討する。
我々は,市販のビデオ拡散モデルの拡張が可能なGen-L-Videoという新しいパラダイムを導入する。
実験結果から,本手法は映像拡散モデルの生成・編集能力を著しく拡張することが明らかとなった。
論文 参考訳(メタデータ) (2023-05-29T17:38:18Z) - VideoXum: Cross-modal Visual and Textural Summarization of Videos [54.0985975755278]
我々は新しい共同ビデオとテキスト要約タスクを提案する。
目標は、短縮されたビデオクリップと、長いビデオから対応するテキスト要約の両方を生成することだ。
生成された短縮ビデオクリップとテキストナラティブは、セマンティックに適切に調整されるべきである。
論文 参考訳(メタデータ) (2023-03-21T17:51:23Z) - Open-book Video Captioning with Retrieve-Copy-Generate Network [42.374461018847114]
本稿では,従来のビデオキャプションタスクを新たなパラダイム,すなわちOpen-book Video Captioningに変換する。
本稿では,プラグイン可能なビデオ・テキスト検索システムを構築し,学習コーパスからのヒントとして文を効率的に検索するRetrieve-Copy-Generateネットワークを提案する。
本フレームワークは,従来の検索手法とオルソドックスエンコーダデコーダ法を協調して,検索した文中の多様な表現を描画するだけでなく,ビデオの自然な,正確な内容を生成する。
論文 参考訳(メタデータ) (2021-03-09T08:17:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。