Fugu-MT 論文翻訳(概要): SD-VSum: A Method and Dataset for Script-Driven Video Summarization

論文の概要: SD-VSum: A Method and Dataset for Script-Driven Video Summarization

arxiv url: http://arxiv.org/abs/2505.03319v1
Date: Tue, 06 May 2025 08:47:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-07 18:50:11.283769
Title: SD-VSum: A Method and Dataset for Script-Driven Video Summarization
Title（参考訳）: SD-VSum:スクリプト駆動のビデオ要約のための方法とデータセット
Authors: Manolis Mylonas, Evlampios Apostolidis, Vasileios Mezaris,
Abstract要約: スクリプト駆動のビデオ要約(VideoXum)の課題を紹介する。我々は、ビデオ毎に利用できる異なる人間注釈の要約を自然言語で記述する。我々はスクリプト駆動のビデオ要約(SD-VSum)のための新しいネットワークアーキテクチャを開発した。
参考スコア（独自算出の注目度）: 6.076406622352117
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we introduce the task of script-driven video summarization, which aims to produce a summary of the full-length video by selecting the parts that are most relevant to a user-provided script outlining the visual content of the desired summary. Following, we extend a recently-introduced large-scale dataset for generic video summarization (VideoXum) by producing natural language descriptions of the different human-annotated summaries that are available per video. In this way we make it compatible with the introduced task, since the available triplets of ``video, summary and summary description'' can be used for training a method that is able to produce different summaries for a given video, driven by the provided script about the content of each summary. Finally, we develop a new network architecture for script-driven video summarization (SD-VSum), that relies on the use of a cross-modal attention mechanism for aligning and fusing information from the visual and text modalities. Our experimental evaluations demonstrate the advanced performance of SD-VSum against state-of-the-art approaches for query-driven and generic (unimodal and multimodal) summarization from the literature, and document its capacity to produce video summaries that are adapted to each user's needs about their content.
Abstract（参考訳）: 本研究は,ユーザが提供するスクリプトに最も関係のある部分を選択して,所望の要約の視覚的内容の概要を概説することによって,フル長映像の要約を作成することを目的とした,スクリプト駆動映像要約の課題を紹介する。次に、最近導入されたビデオ要約のための大規模データセット(VideoXum)を拡張し、ビデオ毎に利用できる異なる人間の注釈付き要約の自然言語記述を生成する。このようにして、紹介されたタスクと互換性を持たせることができる。なぜなら、「ビデオ、要約、要約記述」の利用可能な三つ子を使って、各要約の内容に関する提供されるスクリプトによって、与えられたビデオに対して異なる要約を作成できる方法を訓練することができるからである。最後に,スクリプト駆動による映像要約(SD-VSum)のための新しいネットワークアーキテクチャを開発し,視覚的・テキスト的モダリティからの情報の整合と融合を行うために,クロスモーダルなアテンション機構を利用する。実験により,SD-VSumのクエリ駆動型および汎用的(一様および多様)要約に対する最新手法に対する高度な性能を示すとともに,各ユーザのコンテンツに対するニーズに適合したビデオ要約を生成する能力を示す。

関連論文リスト

Integrating Video and Text: A Balanced Approach to Multimodal Summary Generation and Evaluation [35.50845951376099]
本稿では,ゼロショット映像からテキストまでの要約手法を提案する。従来の手法とは異なり、我々は文字をゼロショットで生成し、音声、ビデオ、テキストのみを入力として使用する。
論文参考訳（メタデータ） (2025-05-10T10:52:23Z)
UBiSS: A Unified Framework for Bimodal Semantic Summarization of Videos [52.161513027831646]
Bimodal Semantic Summarization of Videos (BiSSV) という,より包括的なビデオ要約タスクに着目する。 BiSSVタスクのための統一フレームワーク UBiSS を提案し、ビデオ内のサリエンシ情報をモデル化し、TM-summary と VM-summary を同時に生成する。実験により、我々の統合されたフレームワークは、多段階の要約パイプラインよりも優れたパフォーマンスを実現することが示された。
論文参考訳（メタデータ） (2024-06-24T03:55:25Z)
Language-Guided Self-Supervised Video Summarization Using Text Semantic Matching Considering the Diversity of the Video [22.60291297308379]
本研究では,映像要約タスクを自然言語処理(NLP)タスクに変換する可能性について検討する。本手法は,ランク相関係数のSumMeデータセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2024-05-14T18:07:04Z)
V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning [76.26890864487933]
ビデオ要約は、長いビデオの短く、正確で、結束的な要約を作ることを目的としている。既存のデータセットのほとんどは、ビデオ間要約用に作成されている。マルチモーダル映像要約への取り組みが近年行われている。
論文参考訳（メタデータ） (2024-04-18T17:32:46Z)
Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文参考訳（メタデータ） (2024-04-04T11:59:06Z)
DeVAn: Dense Video Annotation for Video-Language Models [68.70692422636313]
実世界のビデオクリップに記述を生成する視覚言語モデルの有効性を評価するために,人間の注釈付きデータセットを提案する。データセットには、20秒から60秒間の8.5KのYouTubeビデオクリップが含まれており、幅広いトピックや関心事をカバーしている。
論文参考訳（メタデータ） (2023-10-08T08:02:43Z)
Learning Summary-Worthy Visual Representation for Abstractive Summarization in Video [34.202514532882]
本稿では,抽象的な要約を容易にする要約価値のある視覚表現を学習するための新しいアプローチを提案する。本手法は, クロスモーダル転写データと擬似要約から抽出した知識の両方から, 要約に値する情報を利用する。
論文参考訳（メタデータ） (2023-05-08T16:24:46Z)
VideoXum: Cross-modal Visual and Textural Summarization of Videos [54.0985975755278]
我々は新しい共同ビデオとテキスト要約タスクを提案する。目標は、短縮されたビデオクリップと、長いビデオから対応するテキスト要約の両方を生成することだ。生成された短縮ビデオクリップとテキストナラティブは、セマンティックに適切に調整されるべきである。
論文参考訳（メタデータ） (2023-03-21T17:51:23Z)
TL;DW? Summarizing Instructional Videos with Task Relevance & Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文参考訳（メタデータ） (2022-08-14T04:07:40Z)
CLIP-It! Language-Guided Video Summarization [96.69415453447166]
この作業では、ジェネリックとクエリにフォーカスしたビデオ要約に対処する単一のフレームワークであるCLIP-Itを導入する。本稿では,言語誘導型マルチモーダルトランスフォーマーを提案する。本モデルは, 地道的な監督を伴わずに, 訓練により教師なしの設定に拡張することができる。
論文参考訳（メタデータ） (2021-07-01T17:59:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。