論文の概要: Text-Video Multi-Grained Integration for Video Moment Montage
- arxiv url: http://arxiv.org/abs/2412.09276v1
- Date: Thu, 12 Dec 2024 13:40:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:32:24.698704
- Title: Text-Video Multi-Grained Integration for Video Moment Montage
- Title(参考訳): 動画モメント・モンタージュのためのテキスト・ビデオ・マルチグラインド統合
- Authors: Zhihui Yin, Ye Ma, Xipeng Cao, Bo Wang, Quan Chen, Peng Jiang,
- Abstract要約: ビデオモーメント・モンタージュ(VMM)と呼ばれる新しいタスクは、事前に提案されたナレーションテキストに基づいて、対応するビデオセグメントを正確に見つけることを目的としている。
我々は,スクリプトからテキスト機能を効率的に融合させる新しいテキストテキスト-ビデオ多言語統合手法 (TV-MGI) を提案する。
- 参考スコア(独自算出の注目度): 13.794791614348084
- License:
- Abstract: The proliferation of online short video platforms has driven a surge in user demand for short video editing. However, manually selecting, cropping, and assembling raw footage into a coherent, high-quality video remains laborious and time-consuming. To accelerate this process, we focus on a user-friendly new task called Video Moment Montage (VMM), which aims to accurately locate the corresponding video segments based on a pre-provided narration text and then arrange these video clips to create a complete video that aligns with the corresponding descriptions. The challenge lies in extracting precise temporal segments while ensuring intra-sentence and inter-sentence context consistency, as a single script sentence may require trimming and assembling multiple video clips. To address this problem, we present a novel \textit{Text-Video Multi-Grained Integration} method (TV-MGI) that efficiently fuses text features from the script with both shot-level and frame-level video features, which enables the global and fine-grained alignment between the video content and the corresponding textual descriptions in the script. To facilitate further research in this area, we introduce the Multiple Sentences with Shots Dataset (MSSD), a large-scale dataset designed explicitly for the VMM task. We conduct extensive experiments on the MSSD dataset to demonstrate the effectiveness of our framework compared to baseline methods.
- Abstract(参考訳): オンラインのショートビデオプラットフォームの普及により、ショートビデオ編集に対するユーザーの需要が急増している。
しかし、手作業で生の映像を選択し、収穫し、組み立てることによって、一貫性のある高品質なビデオを作ることは、いまだに手間と時間を要する。
このプロセスを加速するために、我々は、事前に提案されたナレーションテキストに基づいて、対応するビデオセグメントを正確に特定し、これらのビデオクリップを配置して、対応する記述と整合した完全なビデオを作成することを目的とした、ユーザフレンドリーなビデオモメント・モンタージュ(VMM)と呼ばれる新しいタスクに焦点を当てた。
1つのスクリプト文は、トリミングと複数のビデオクリップの組み立てを必要とする可能性があるため、正確な時間セグメントの抽出と、文内および文間コンテキストの整合性の確保が課題である。
この問題に対処するために,ビデオコンテンツとそれに対応するテキスト記述のグローバルかつきめ細かなアライメントを可能にする,スクリプトからのテキスト特徴とショットレベルおよびフレームレベルのビデオ特徴とを効率的に融合する,新しい‘textit{Text-Video Multi-Grained Integration} 法 (TV-MGI) を提案する。
この領域のさらなる研究を容易にするために、VMMタスク用に明示的に設計された大規模データセットであるMSSD(Multiple Sentences with Shots Dataset)を紹介する。
MSSDデータセットの広範な実験を行い、ベースライン法と比較して、我々のフレームワークの有効性を実証する。
関連論文リスト
- Interpolating Video-LLMs: Toward Longer-sequence LMMs in a Training-free Manner [53.671484175063995]
ビデオ-LLMはショートビデオの処理のために事前訓練されており、長いビデオコンテンツを理解するための幅広いアプリケーションを制限する。
固定ビデオエンコーダとアライメントプロジェクタの制約を回避するための代替ビデオトークン再構成手法を提案する。
論文 参考訳(メタデータ) (2024-09-19T17:59:55Z) - MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives [58.15403987979496]
本稿では,RACCooNを提案する。
ビデオ生成モデルは、自動生成された物語や指示を取り入れて、生成されたコンテンツの質と精度を高める。
提案フレームワークは,ビデオ・パラグラフ生成,映像コンテンツ編集において優れた多機能性を示し,さらに拡張するために他のSoTAビデオ生成モデルに組み込むことができる。
論文 参考訳(メタデータ) (2024-05-28T17:46:36Z) - TOPA: Extending Large Language Models for Video Understanding via Text-Only Pre-Alignment [42.557643515992005]
ビデオの理解は、相当量のWebビデオテキストデータが利用できるにもかかわらず、依然として課題である。
ビデオ理解のための大規模言語モデル(LLM)を拡張する新しいアプローチであるテキストオンリー・プレアライメント(TOPA)を導入する。
論文 参考訳(メタデータ) (2024-05-22T18:35:10Z) - Consistent Video-to-Video Transfer Using Synthetic Dataset [12.323784941805519]
テキストベースのビデオ・ビデオ編集のための,新しい,効率的なアプローチを提案する。
私たちのアプローチの核心は、ビデオ間転送タスクに適した合成ペアビデオデータセットです。
Instruct Pix2Pix's image transfer by editing instruction, we adapt this paradigm to the video domain。
論文 参考訳(メタデータ) (2023-11-01T01:20:12Z) - Weakly Supervised Video Representation Learning with Unaligned Text for
Sequential Videos [39.42509966219001]
本稿では,時間レベルのテキスト・ビデオの正確なアライメントが提供されないような逐次的ビデオ理解について検討する。
我々は、ビデオ表現のためのフレームレベルの特徴を集約するためにトランスフォーマーを使用し、事前訓練されたテキストエンコーダを使用して、各アクションとビデオ全体に対応するテキストをエンコードする。
ビデオシーケンス検証とテキスト・ツー・ビデオマッチングの実験により,本手法がベースラインをはるかに上回ることを示す。
論文 参考訳(メタデータ) (2023-03-22T08:13:25Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z) - Transcript to Video: Efficient Clip Sequencing from Texts [65.87890762420922]
Transcript-to-Video - テキストを入力として使用する弱教師付きフレームワークで、広範なショットコレクションからビデオシーケンスを自動的に生成する。
具体的には、視覚言語表現とモデルショットシークエンシングスタイルを学習するためのコンテンツ検索モジュールとテンポラルコヒーレントモジュールを提案する。
高速な推論のために,リアルタイムビデオクリップシークエンシングのための効率的な検索手法を提案する。
論文 参考訳(メタデータ) (2021-07-25T17:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。