論文の概要: Video Summarization Based on Video-text Representation
- arxiv url: http://arxiv.org/abs/2201.02494v1
- Date: Fri, 7 Jan 2022 15:21:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-10 14:04:15.368006
- Title: Video Summarization Based on Video-text Representation
- Title(参考訳): ビデオテキスト表現に基づくビデオ要約
- Authors: Li Haopeng, Ke Qiuhong, Gong Mingming, Zhang Rui
- Abstract要約: ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。
また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。
映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern video summarization methods are based on deep neural networks which
require a large amount of annotated data for training. However, existing
datasets for video summarization are small-scale, easily leading to
over-fitting of the deep models. Considering that the annotation of large-scale
datasets is time-consuming, we propose a multimodal self-supervised learning
framework to obtain semantic representations of videos, which benefits the
video summarization task. Specifically, we explore the semantic consistency
between the visual information and text information of videos, for the
self-supervised pretraining of a multimodal encoder on a newly-collected
dataset of video-text pairs. Additionally, we introduce a progressive video
summarization method, where the important content in a video is pinpointed
progressively to generate better summaries. Finally, an objective evaluation
framework is proposed to measure the quality of video summaries based on video
classification. Extensive experiments have proved the effectiveness and
superiority of our method in rank correlation coefficients, F-score, and the
proposed objective evaluation compared to the state of the art.
- Abstract(参考訳): 現代のビデオ要約法は、トレーニングのために大量の注釈付きデータを必要とするディープニューラルネットワークに基づいている。
しかし、ビデオ要約のための既存のデータセットは小規模であり、深層モデルの過剰フィッティングに繋がる。
大規模データセットのアノテーションが時間を要することを考慮し,ビデオのセマンティック表現を得るためのマルチモーダルな自己教師型学習フレームワークを提案する。
具体的には,映像の視覚情報とテキスト情報のセマンティック一貫性について検討し,新たに収集したビデオテキストペアのデータセット上で,マルチモーダルエンコーダの自己教師付き事前学習を行う。
さらに,映像中の重要なコンテンツを段階的にピンポイントし,より優れた要約を生成するプログレッシブビデオ要約手法を提案する。
最後に,ビデオ分類に基づく映像要約の品質評価のための客観的評価フレームワークを提案する。
ランク相関係数,f-スコア,提案する客観的評価において,本手法の有効性と優れていることが実証された。
関連論文リスト
- Enhancing Video Summarization with Context Awareness [9.861215740353247]
ビデオ要約は、ビデオの本質をキャプチャするテクニック、ショット、セグメントを選択することで、簡潔な要約を自動的に生成する。
ビデオ要約の重要性にもかかわらず、多様で代表的なデータセットが不足している。
本稿では,映像データ構造と情報を活用して情報要約を生成する教師なし手法を提案する。
論文 参考訳(メタデータ) (2024-04-06T09:08:34Z) - Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。
我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。
我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文 参考訳(メタデータ) (2024-04-04T11:59:06Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - DeVAn: Dense Video Annotation for Video-Language Models [68.70692422636313]
実世界のビデオクリップに記述を生成する視覚言語モデルの有効性を評価するために,人間の注釈付きデータセットを提案する。
データセットには、20秒から60秒間の8.5KのYouTubeビデオクリップが含まれており、幅広いトピックや関心事をカバーしている。
論文 参考訳(メタデータ) (2023-10-08T08:02:43Z) - Causal Video Summarizer for Video Exploration [74.27487067877047]
Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。
既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-07-04T22:52:16Z) - SELF-VS: Self-supervised Encoding Learning For Video Summarization [6.21295508577576]
本稿では,知識蒸留を用いてトランスフォーマーエンコーダを事前学習する自己教師型ビデオ表現学習手法を提案する。
提案手法は,フレーム重要度スコアに基づいて構築されたセマンティックビデオ表現と,映像分類を訓練したCNNから派生した表現とをマッチングする。
論文 参考訳(メタデータ) (2023-03-28T14:08:05Z) - VideoXum: Cross-modal Visual and Textural Summarization of Videos [54.0985975755278]
我々は新しい共同ビデオとテキスト要約タスクを提案する。
目標は、短縮されたビデオクリップと、長いビデオから対応するテキスト要約の両方を生成することだ。
生成された短縮ビデオクリップとテキストナラティブは、セマンティックに適切に調整されるべきである。
論文 参考訳(メタデータ) (2023-03-21T17:51:23Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - SummaryNet: A Multi-Stage Deep Learning Model for Automatic Video
Summarisation [0.0]
本稿では,自動要約のための教師あり学習フレームワークとして,SupiseNetを紹介する。
2ストリームの畳み込みネットワークを使用して、空間(外観)と時間(動き)の表現を学習する。
論文 参考訳(メタデータ) (2020-02-19T18:24:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。