論文の概要: Visual Subtitle Feature Enhanced Video Outline Generation
- arxiv url: http://arxiv.org/abs/2208.11307v1
- Date: Wed, 24 Aug 2022 05:26:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-25 12:07:09.224388
- Title: Visual Subtitle Feature Enhanced Video Outline Generation
- Title(参考訳): ビジュアル字幕機能強化ビデオアウトライン生成
- Authors: Qi Lv, Ziqiang Cao, Wenrui Xie, Derui Wang, Jingwen Wang, Zhiyong Hu,
Tangkun Zhang, Yuan Ba, Yuanhang Li, Min Cao, Wenjie Li, Sujian Li, Guohong
Fu
- Abstract要約: ビデオ理解タスク,すなわちビデオアウトライン生成(VOG)を導入する。
VOGを学習し、評価するために、DuVOGと呼ばれる10k以上のデータセットを注釈付けします。
ビデオアウトライン生成モデル(VSENet)を提案する。
- 参考スコア(独自算出の注目度): 23.831220964676973
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the tremendously increasing number of videos, there is a great demand
for techniques that help people quickly navigate to the video segments they are
interested in. However, current works on video understanding mainly focus on
video content summarization, while little effort has been made to explore the
structure of a video. Inspired by textual outline generation, we introduce a
novel video understanding task, namely video outline generation (VOG). This
task is defined to contain two sub-tasks: (1) first segmenting the video
according to the content structure and then (2) generating a heading for each
segment. To learn and evaluate VOG, we annotate a 10k+ dataset, called DuVOG.
Specifically, we use OCR tools to recognize subtitles of videos. Then
annotators are asked to divide subtitles into chapters and title each chapter.
In videos, highlighted text tends to be the headline since it is more likely to
attract attention. Therefore we propose a Visual Subtitle feature Enhanced
video outline generation model (VSENet) which takes as input the textual
subtitles together with their visual font sizes and positions. We consider the
VOG task as a sequence tagging problem that extracts spans where the headings
are located and then rewrites them to form the final outlines. Furthermore,
based on the similarity between video outlines and textual outlines, we use a
large number of articles with chapter headings to pretrain our model.
Experiments on DuVOG show that our model largely outperforms other baseline
methods, achieving 77.1 of F1-score for the video segmentation level and 85.0
of ROUGE-L_F0.5 for the headline generation level.
- Abstract(参考訳): ビデオの数が非常に増えているので、興味のあるビデオセグメントを素早くナビゲートするためのテクニックがとても求められています。
しかし,現在のビデオ理解研究は主に映像コンテンツの要約に焦点を当てているが,ビデオの構造を探求する努力はほとんど行われていない。
テキスト的アウトライン生成に触発されて,新しい映像理解タスクであるビデオアウトライン生成(vog)を導入する。
このタスクは、(1)まずコンテンツ構造に従ってビデオをセグメント化し、(2)各セグメントの先頭を生成する2つのサブタスクを含むように定義されている。
VOGを学習し、評価するために、DuVOGと呼ばれる10k以上のデータセットを注釈付けします。
具体的には、OCRツールを使用してビデオの字幕を認識する。
その後、注釈者は各章にサブタイトルを分けてタイトルを付けるよう依頼される。
ビデオでは、強調されたテキストが見出しになる傾向がある。
そこで本稿では,テキスト字幕を視覚フォントのサイズや位置とともに入力する,ビジュアル字幕機能拡張ビデオアウトライン生成モデル(VSENet)を提案する。
vogタスクをシーケンスタグ付け問題として,見出しの位置をスパンとして抽出し,それを書き直して最終アウトラインを形成する。
さらに,ビデオのアウトラインとテキストのアウトラインの類似性から,章の見出しが付いた多数の記事を用いて,モデルを事前学習する。
また,DuVOG実験の結果,ビデオセグメンテーションレベルではF1スコアの77.1,ヘッドライン生成レベルではROUGE-L_F0.5の85.0を達成した。
関連論文リスト
- Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。
各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。
Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文 参考訳(メタデータ) (2024-06-10T06:17:55Z) - VidChapters-7M: Video Chapters at Scale [110.19323390486775]
VidChapters-7Mは、合計で7M章を含む817万のユーザチャプター付きビデオのデータセットである。
VidChapters-7Mは、ユーザーが注釈を付けた章をスクラップすることで、オンラインビデオから自動的にスケーラブルな方法で作成される。
VidChapters-7Mの事前トレーニングは、ゼロショットと微調整の両方で、高密度な映像キャプションタスクに適していることを示す。
論文 参考訳(メタデータ) (2023-09-25T08:38:11Z) - Hierarchical Video-Moment Retrieval and Step-Captioning [68.4859260853096]
HiRESTは、インストラクショナルビデオデータセットから3.4Kのテキストビデオペアで構成されている。
我々の階層的ベンチマークは、ビデオ検索、モーメント検索、2つの新しいモーメントセグメンテーション、ステップキャプションタスクからなる。
論文 参考訳(メタデータ) (2023-03-29T02:33:54Z) - VideoXum: Cross-modal Visual and Textural Summarization of Videos [54.0985975755278]
我々は新しい共同ビデオとテキスト要約タスクを提案する。
目標は、短縮されたビデオクリップと、長いビデオから対応するテキスト要約の両方を生成することだ。
生成された短縮ビデオクリップとテキストナラティブは、セマンティックに適切に調整されるべきである。
論文 参考訳(メタデータ) (2023-03-21T17:51:23Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z) - TeViS:Translating Text Synopses to Video Storyboards [30.388090248346504]
ビデオストーリーボード(TeViS)にテキスト合成という新しいタスクを提案する。
テキストの合成を視覚化するために、ビデオストーリーボードとして順序付けられた画像のシーケンスを検索することを目的としている。
VQ-Transはまずテキスト合成と画像を共同埋め込み空間にエンコードし、ベクトル量子化(VQ)を用いて視覚表現を改善する。
論文 参考訳(メタデータ) (2022-12-31T06:32:36Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。