論文の概要: SD-MVSum: Script-Driven Multimodal Video Summarization Method and Datasets
- arxiv url: http://arxiv.org/abs/2510.05652v1
- Date: Tue, 07 Oct 2025 08:03:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.149677
- Title: SD-MVSum: Script-Driven Multimodal Video Summarization Method and Datasets
- Title(参考訳): SD-MVSum:スクリプト駆動マルチモーダルビデオ要約法とデータセット
- Authors: Manolis Mylonas, Charalampia Zerva, Evlampios Apostolidis, Vasileios Mezaris,
- Abstract要約: 我々は,スクリプトによる映像要約手法を拡張し,ユーザが提供するスクリプトとビデオの音声コンテンツとの関係を考慮に入れた。
提案手法であるSD-MVSumでは,新たな重み付きクロスモーダルアテンション機構を用いて,各データモダリティ間の依存性をモデル化する。
ビデオ要約のための大規模データセットを2つ拡張し,スクリプト駆動型マルチモーダルビデオ要約手法の訓練と評価に適するようにした。
- 参考スコア(独自算出の注目度): 5.063145835847927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we extend a recent method for script-driven video summarization, originally considering just the visual content of the video, to take into account the relevance of the user-provided script also with the video's spoken content. In the proposed method, SD-MVSum, the dependence between each considered pair of data modalities, i.e., script-video and script-transcript, is modeled using a new weighted cross-modal attention mechanism. This explicitly exploits the semantic similarity between the paired modalities in order to promote the parts of the full-length video with the highest relevance to the user-provided script. Furthermore, we extend two large-scale datasets for video summarization (S-VideoXum, MrHiSum), to make them suitable for training and evaluation of script-driven multimodal video summarization methods. Experimental comparisons document the competitiveness of our SD-MVSum method against other SOTA approaches for script-driven and generic video summarization. Our new method and extended datasets are available at: https://github.com/IDT-ITI/SD-MVSum.
- Abstract(参考訳): 本研究では,映像の視覚的内容のみを考慮したスクリプト駆動映像要約手法を拡張し,映像の音声コンテンツとユーザ提供スクリプトの関連性を考慮した。
SD-MVSum法では,新たな重み付きクロスモーダルアテンション機構を用いて,スクリプトビデオとスクリプト書き起こしの2つのデータモダリティ間の依存性をモデル化する。
これは、ユーザが提供するスクリプトに最も関連性の高いフル長ビデオの一部をプロモートするために、ペア化されたモダリティ間のセマンティックな類似性を明示的に活用する。
さらに,ビデオ要約のための2つの大規模データセット(S-VideoXum, MrHiSum)を拡張し,スクリプト駆動型マルチモーダルビデオ要約法の訓練と評価に適するようにした。
SD-MVSum法と他のSOTA法によるスクリプト駆動・ジェネリックビデオ要約手法との競合性を実験的に比較した。
我々の新しいメソッドと拡張データセットは、https://github.com/IDT-ITI/SD-MVSum.comで利用可能です。
関連論文リスト
- SD-VSum: A Method and Dataset for Script-Driven Video Summarization [5.531123091747035]
スクリプト駆動のビデオ要約(VideoXum)の課題を紹介する。
我々は、ビデオ毎に利用できる異なる人間注釈の要約を自然言語で記述する。
我々はスクリプト駆動のビデオ要約(SD-VSum)のための新しいネットワークアーキテクチャを開発した。
論文 参考訳(メタデータ) (2025-05-06T08:47:14Z) - UBiSS: A Unified Framework for Bimodal Semantic Summarization of Videos [52.161513027831646]
Bimodal Semantic Summarization of Videos (BiSSV) という,より包括的なビデオ要約タスクに着目する。
BiSSVタスクのための統一フレームワーク UBiSS を提案し、ビデオ内のサリエンシ情報をモデル化し、TM-summary と VM-summary を同時に生成する。
実験により、我々の統合されたフレームワークは、多段階の要約パイプラインよりも優れたパフォーマンスを実現することが示された。
論文 参考訳(メタデータ) (2024-06-24T03:55:25Z) - V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning [76.26890864487933]
ビデオ要約は、長いビデオの短く、正確で、結束的な要約を作ることを目的としている。
既存のデータセットのほとんどは、ビデオ間要約用に作成されている。
マルチモーダル映像要約への取り組みが近年行われている。
論文 参考訳(メタデータ) (2024-04-18T17:32:46Z) - MEVG: Multi-event Video Generation with Text-to-Video Models [18.06640097064693]
本稿では,ユーザから複数の個々の文が与えられた複数のイベントを示すビデオを生成する,拡散に基づく新しいビデオ生成手法を提案する。
本手法は, 微調整処理を伴わずに, 事前学習したテキスト・ビデオ生成モデルを使用するため, 大規模なビデオデータセットを必要としない。
提案手法は,コンテンツとセマンティクスの時間的コヒーレンシーの観点から,他のビデオ生成モデルよりも優れている。
論文 参考訳(メタデータ) (2023-12-07T06:53:25Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Causal Video Summarizer for Video Exploration [74.27487067877047]
Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。
既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-07-04T22:52:16Z) - VideoXum: Cross-modal Visual and Textural Summarization of Videos [54.0985975755278]
我々は新しい共同ビデオとテキスト要約タスクを提案する。
目標は、短縮されたビデオクリップと、長いビデオから対応するテキスト要約の両方を生成することだ。
生成された短縮ビデオクリップとテキストナラティブは、セマンティックに適切に調整されるべきである。
論文 参考訳(メタデータ) (2023-03-21T17:51:23Z) - Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。
また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。
映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-07T15:21:46Z) - GPT2MVS: Generative Pre-trained Transformer-2 for Multi-modal Video
Summarization [18.543372365239673]
提案モデルは,コンテキスト化された映像要約制御器,マルチモーダルアテンション機構,対話型アテンションネットワーク,映像要約生成器から構成される。
その結果, 最新手法と比較して, 精度5.88%, F1スコアが4.06%上昇し, このモデルが有効であることが示された。
論文 参考訳(メタデータ) (2021-04-26T10:50:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。