論文の概要: V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning
- arxiv url: http://arxiv.org/abs/2404.12353v1
- Date: Thu, 18 Apr 2024 17:32:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 18:42:29.792353
- Title: V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning
- Title(参考訳): V2Xum-LLM:テンポラルプロンプトインストラクションチューニングによるクロスモーダルビデオ要約
- Authors: Hang Hua, Yunlong Tang, Chenliang Xu, Jiebo Luo,
- Abstract要約: Instruct-V2Xumは、YouTubeから3万の多様な動画を出力するクロスモーダルビデオ要約データセットである。
V2Xum-LLMは、ビデオ要約タスクを1つの大きな言語モデル(LLM)テキストデコーダに統合する最初のフレームワークである。
実験により、V2Xum-LLaMAは複数のビデオ要約タスクにおいて強力なベースラインモデルより優れていることが示された。
- 参考スコア(独自算出の注目度): 76.26890864487933
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video summarization aims to create short, accurate, and cohesive summaries of longer videos. Despite the existence of various video summarization datasets, a notable limitation is their limited amount of source videos, which hampers the effective fine-tuning of advanced large vision-language models (VLMs). Additionally, most existing datasets are created for video-to-video summarization, overlooking the contemporary need for multimodal video content summarization. Recent efforts have been made to expand from unimodal to multimodal video summarization, categorizing the task into three sub-tasks based on the summary's modality: video-to-video (V2V), video-to-text (V2T), and a combination of video and text summarization (V2VT). However, the textual summaries in previous multimodal datasets are inadequate. To address these issues, we introduce Instruct-V2Xum, a cross-modal video summarization dataset featuring 30,000 diverse videos sourced from YouTube, with lengths ranging from 40 to 940 seconds and an average summarization ratio of 16.39\%. Each video summary in Instruct-V2Xum is paired with a textual summary that references specific frame indexes, facilitating the generation of aligned video and textual summaries. In addition, we propose a new video summarization framework named V2Xum-LLM. V2Xum-LLM, specifically V2Xum-LLaMA in this study, is the first framework that unifies different video summarization tasks into one large language model's (LLM) text decoder and achieves task-controllable video summarization with temporal prompts and task instructions. Experiments show that V2Xum-LLaMA outperforms strong baseline models on multiple video summarization tasks. Furthermore, we propose an enhanced evaluation metric for V2V and V2VT summarization tasks.
- Abstract(参考訳): ビデオ要約は、長いビデオの短く、正確で、結束的な要約を作ることを目的としている。
様々なビデオ要約データセットが存在するにもかかわらず、顕著な制限は、その限られた量のソースビデオであり、これは高度な大規模視覚言語モデル(VLM)の効果的な微調整を妨げている。
さらに、既存のほとんどのデータセットは、ビデオ間要約のために作成され、現代のマルチモーダルビデオコンテンツ要約の必要性を見越している。
ビデオ・トゥ・ビデオ(V2V)、ビデオ・トゥ・テキスト(V2T)、ビデオ・テキスト・サマリゼーション(V2VT)の3つのサブタスクに分類し、非モーダルからマルチモーダル・ビデオ・サマリゼーションへと拡張する試みが近年行われている。
しかし、過去のマルチモーダルデータセットのテキスト要約は不十分である。
Instruct-V2Xumは、YouTubeからソースされた3万の多様なビデオで構成され、長さは40秒から940秒、平均要約率は16.39\%である。
Instruct-V2Xumの各ビデオ要約は、特定のフレームインデックスを参照するテキスト要約と組み合わせられ、アライメントされたビデオとテキスト要約の生成が容易になる。
さらに,V2Xum-LLMというビデオ要約フレームワークを提案する。
V2Xum-LLMは、特にV2Xum-LLaMAにおいて、異なるビデオ要約タスクを1つの大きな言語モデル(LLM)テキストデコーダに統合し、時間的プロンプトとタスク命令でタスク制御可能なビデオ要約を実現するための最初のフレームワークである。
実験により、V2Xum-LLaMAは複数のビデオ要約タスクにおいて強力なベースラインモデルより優れていることが示された。
さらに,V2VとV2VTの要約タスクに対する評価基準の強化を提案する。
関連論文リスト
- Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。
我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。
我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文 参考訳(メタデータ) (2024-04-04T11:59:06Z) - VideoXum: Cross-modal Visual and Textural Summarization of Videos [54.0985975755278]
我々は新しい共同ビデオとテキスト要約タスクを提案する。
目標は、短縮されたビデオクリップと、長いビデオから対応するテキスト要約の両方を生成することだ。
生成された短縮ビデオクリップとテキストナラティブは、セマンティックに適切に調整されるべきである。
論文 参考訳(メタデータ) (2023-03-21T17:51:23Z) - Hierarchical3D Adapters for Long Video-to-text Summarization [79.01926022762093]
マルチモーダル情報は、メモリ重大で完全に微調整されたテキスト要約方法よりも優れたパフォーマンスを提供する。
実験により, マルチモーダル情報は, よりメモリ量が多く, 完全に微調整されたテキスト要約法よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2022-10-10T16:44:36Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - See, Hear, Read: Leveraging Multimodality with Guided Attention for
Abstractive Text Summarization [14.881597737762316]
我々は,NDSS,ICML,NeurIPSなどの著名な学術カンファレンスのプレゼンテーションから収集した,様々な期間のビデオを用いた抽象テキスト要約のための最初の大規模データセットを紹介する。
次に,多モード変換器をベースとしたデコーダのみの言語モデルであるnameを提案し,テキスト要約タスクの様々な入力モードにおけるモーダル内およびモーダル間ダイナミクスを本質的にキャプチャする。
論文 参考訳(メタデータ) (2021-05-20T08:56:33Z) - GPT2MVS: Generative Pre-trained Transformer-2 for Multi-modal Video
Summarization [18.543372365239673]
提案モデルは,コンテキスト化された映像要約制御器,マルチモーダルアテンション機構,対話型アテンションネットワーク,映像要約生成器から構成される。
その結果, 最新手法と比較して, 精度5.88%, F1スコアが4.06%上昇し, このモデルが有効であることが示された。
論文 参考訳(メタデータ) (2021-04-26T10:50:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。