論文の概要: TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency
- arxiv url: http://arxiv.org/abs/2208.06773v1
- Date: Sun, 14 Aug 2022 04:07:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-16 13:34:03.855504
- Title: TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency
- Title(参考訳): TL;DW?
タスクの関連性とクロスモーダル・サリエンシーを用いた授業ビデオ要約
- Authors: Medhini Narasimhan, Arsha Nagrani, Chen Sun, Michael Rubinstein,
Trevor Darrell, Anna Rohrbach, Cordelia Schmid
- Abstract要約: 我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
- 参考スコア(独自算出の注目度): 133.75876535332003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: YouTube users looking for instructions for a specific task may spend a long
time browsing content trying to find the right video that matches their needs.
Creating a visual summary (abridged version of a video) provides viewers with a
quick overview and massively reduces search time. In this work, we focus on
summarizing instructional videos, an under-explored area of video
summarization. In comparison to generic videos, instructional videos can be
parsed into semantically meaningful segments that correspond to important steps
of the demonstrated task. Existing video summarization datasets rely on manual
frame-level annotations, making them subjective and limited in size. To
overcome this, we first automatically generate pseudo summaries for a corpus of
instructional videos by exploiting two key assumptions: (i) relevant steps are
likely to appear in multiple videos of the same task (Task Relevance), and (ii)
they are more likely to be described by the demonstrator verbally (Cross-Modal
Saliency). We propose an instructional video summarization network that
combines a context-aware temporal video encoder and a segment scoring
transformer. Using pseudo summaries as weak supervision, our network constructs
a visual summary for an instructional video given only video and transcribed
speech. To evaluate our model, we collect a high-quality test set, WikiHow
Summaries, by scraping WikiHow articles that contain video demonstrations and
visual depictions of steps allowing us to obtain the ground-truth summaries. We
outperform several baselines and a state-of-the-art video summarization model
on this new benchmark.
- Abstract(参考訳): 特定のタスクの指示を探しているYouTubeユーザーは、自分のニーズに合った適切なビデオを見つけるために長い時間を費やしているかもしれない。
視覚的な要約(ビデオの短縮版)を作成することで、視聴者は簡単に概観でき、検索時間が大幅に短縮される。
本研究では,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
ジェネリックビデオと比較して、指示ビデオは、示されるタスクの重要なステップに対応する意味的に意味のあるセグメントに解析することができる。
既存のビデオ要約データセットは手動のフレームレベルのアノテーションに依存しており、主観的でサイズに制限がある。
これを克服するために,まず2つの前提を生かして,授業ビデオコーパスの擬似要約を自動的に生成する。
(i)同一タスクの複数のビデオ(タスク関連)に関連のあるステップが現れる可能性があり、
(二)デモ参加者によって口頭で説明される可能性が高い(クロス・モーダル・サリエンシ)。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
疑似要約を弱い監督力として用い,映像と書き起こされた音声のみの指導ビデオの視覚的要約を構築した。
本モデルを評価するために,ビデオデモやステップの視覚的描写を含むウィキハウの記事をスクラップして,質の高いテストセットであるWikiHow Summariesを収集した。
この新しいベンチマークでは,いくつかのベースラインと最先端のビデオ要約モデルに勝っています。
関連論文リスト
- V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning [76.26890864487933]
ビデオ要約は、長いビデオの短く、正確で、結束的な要約を作ることを目的としている。
既存のデータセットのほとんどは、ビデオ間要約用に作成されている。
マルチモーダル映像要約への取り組みが近年行われている。
論文 参考訳(メタデータ) (2024-04-18T17:32:46Z) - Shot2Story20K: A New Benchmark for Comprehensive Understanding of
Multi-shot Videos [58.13927287437394]
マルチショットビデオ理解ベンチマークShot2Story20Kに、詳細なショットレベルのキャプションと包括的ビデオ要約を付加する。
予備実験は、長大かつ包括的なビデオ要約を生成するためのいくつかの課題を示している。
論文 参考訳(メタデータ) (2023-12-16T03:17:30Z) - Hierarchical Video-Moment Retrieval and Step-Captioning [68.4859260853096]
HiRESTは、インストラクショナルビデオデータセットから3.4Kのテキストビデオペアで構成されている。
我々の階層的ベンチマークは、ビデオ検索、モーメント検索、2つの新しいモーメントセグメンテーション、ステップキャプションタスクからなる。
論文 参考訳(メタデータ) (2023-03-29T02:33:54Z) - VideoXum: Cross-modal Visual and Textural Summarization of Videos [54.0985975755278]
我々は新しい共同ビデオとテキスト要約タスクを提案する。
目標は、短縮されたビデオクリップと、長いビデオから対応するテキスト要約の両方を生成することだ。
生成された短縮ビデオクリップとテキストナラティブは、セマンティックに適切に調整されるべきである。
論文 参考訳(メタデータ) (2023-03-21T17:51:23Z) - Learning to Summarize Videos by Contrasting Clips [1.3999481573773074]
ビデオ要約は、オリジナルに近いストーリーをナレーションするビデオの一部を選択することを目的としている。
既存のビデオ要約アプローチのほとんどは手作りのラベルに重点を置いている。
両質問に対する回答として,コントラスト学習を提案する。
論文 参考訳(メタデータ) (2023-01-12T18:55:30Z) - Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。
また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。
映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-07T15:21:46Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。