論文の概要: VT-SSum: A Benchmark Dataset for Video Transcript Segmentation and
Summarization
- arxiv url: http://arxiv.org/abs/2106.05606v1
- Date: Thu, 10 Jun 2021 09:19:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-11 14:25:23.697571
- Title: VT-SSum: A Benchmark Dataset for Video Transcript Segmentation and
Summarization
- Title(参考訳): VT-SSum:ビデオトランスクリプトセグメンテーションと要約のためのベンチマークデータセット
- Authors: Tengchao Lv, Lei Cui, Momcilo Vasilijevic, Furu Wei
- Abstract要約: 本稿では,VT-SSumについて述べる。VT-SSum,VT-SSum,VT-SSum,VT-SSum,VT-SSum,VT-SSum,VT-SSum。
VT-SSumはVideoLectures.NETのビデオを利用して、スライドコンテンツを弱い監督力として利用し、ビデオ書き起こしの抽出要約を生成する。
最先端のディープラーニングアプローチによる実験では、VT-SSumでトレーニングされたモデルは、AMI音声テキスト要約ベンチマークに大幅に改善されている。
- 参考スコア(独自算出の注目度): 33.31658113955628
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video transcript summarization is a fundamental task for video understanding.
Conventional approaches for transcript summarization are usually built upon the
summarization data for written language such as news articles, while the domain
discrepancy may degrade the model performance on spoken text. In this paper, we
present VT-SSum, a benchmark dataset with spoken language for video transcript
segmentation and summarization, which includes 125K transcript-summary pairs
from 9,616 videos. VT-SSum takes advantage of the videos from VideoLectures.NET
by leveraging the slides content as the weak supervision to generate the
extractive summary for video transcripts. Experiments with a state-of-the-art
deep learning approach show that the model trained with VT-SSum brings a
significant improvement on the AMI spoken text summarization benchmark. VT-SSum
will be publicly available to support the future research of video transcript
segmentation and summarization tasks.
- Abstract(参考訳): ビデオ書き起こし要約はビデオ理解の基本的なタスクである。
書き起こし要約のための従来のアプローチは、通常、ニュース記事などの書き言葉の要約データに基づいて構築されるが、ドメインの相違は、音声テキストのモデル性能を劣化させる可能性がある。
本稿では,9,616本のビデオから125Kのトランスクリプト-サマリーペアを含む音声言語を用いた音声合成と要約のためのベンチマークデータセットであるVT-SSumを提案する。
VT-SSumはVideoLectures.NETのビデオを利用して、スライドコンテンツを弱い監督力として利用し、ビデオ書き起こしの抽出要約を生成する。
最先端のディープラーニングアプローチによる実験では、VT-SSumでトレーニングされたモデルは、AMI音声テキスト要約ベンチマークに大幅に改善されている。
VT-SSumは、ビデオスクリプティングのセグメンテーションと要約タスクの将来の研究をサポートするために公開される。
関連論文リスト
- Language-Guided Self-Supervised Video Summarization Using Text Semantic Matching Considering the Diversity of the Video [22.60291297308379]
本研究では,映像要約タスクを自然言語処理(NLP)タスクに変換する可能性について検討する。
本手法は,ランク相関係数のSumMeデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-05-14T18:07:04Z) - DeVAn: Dense Video Annotation for Video-Language Models [68.70692422636313]
実世界のビデオクリップに記述を生成する視覚言語モデルの有効性を評価するために,人間の注釈付きデータセットを提案する。
データセットには、20秒から60秒間の8.5KのYouTubeビデオクリップが含まれており、幅広いトピックや関心事をカバーしている。
論文 参考訳(メタデータ) (2023-10-08T08:02:43Z) - VideoXum: Cross-modal Visual and Textural Summarization of Videos [54.0985975755278]
我々は新しい共同ビデオとテキスト要約タスクを提案する。
目標は、短縮されたビデオクリップと、長いビデオから対応するテキスト要約の両方を生成することだ。
生成された短縮ビデオクリップとテキストナラティブは、セマンティックに適切に調整されるべきである。
論文 参考訳(メタデータ) (2023-03-21T17:51:23Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。
また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。
映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-07T15:21:46Z) - StreamHover: Livestream Transcript Summarization and Annotation [54.41877742041611]
ライブストリームの書き起こしを注釈付けして要約するフレームワークであるStreamHoverを紹介します。
合計500時間以上のビデオに抽出的要約と抽象的要約を併用したベンチマークデータセットは,既存の注釈付きコーパスよりもはるかに大きい。
我々のモデルはより一般化され、強力なベースラインよりも性能が向上することを示す。
論文 参考訳(メタデータ) (2021-09-11T02:19:37Z) - CLIP-It! Language-Guided Video Summarization [96.69415453447166]
この作業では、ジェネリックとクエリにフォーカスしたビデオ要約に対処する単一のフレームワークであるCLIP-Itを導入する。
本稿では,言語誘導型マルチモーダルトランスフォーマーを提案する。
本モデルは, 地道的な監督を伴わずに, 訓練により教師なしの設定に拡張することができる。
論文 参考訳(メタデータ) (2021-07-01T17:59:27Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。