論文の概要: Shot Contrastive Self-Supervised Learning for Scene Boundary Detection
- arxiv url: http://arxiv.org/abs/2104.13537v1
- Date: Wed, 28 Apr 2021 02:35:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-29 12:49:41.886334
- Title: Shot Contrastive Self-Supervised Learning for Scene Boundary Detection
- Title(参考訳): シーン境界検出のためのショットコントラスト自己監督学習
- Authors: Shixing Chen, Xiaohan Nie, David Fan, Dongqing Zhang, Vimal Bhat,
Raffay Hamid
- Abstract要約: ショットコントラスト学習アプローチ(ShotCoL)は、近くのショット間の類似性を最大化するショット表現を学習する。
シーン境界検出のタスクにShotCoLを適用する方法を示し、MovieNetデータセット上で最先端のパフォーマンスを提供する。
われわれは、ビデオ広告を挿入できる映画やテレビ番組のタイムスタンプを見つけながら、最小限の破壊的な視聴体験を提供する。
- 参考スコア(独自算出の注目度): 7.4262338683231155
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Scenes play a crucial role in breaking the storyline of movies and TV
episodes into semantically cohesive parts. However, given their complex
temporal structure, finding scene boundaries can be a challenging task
requiring large amounts of labeled training data. To address this challenge, we
present a self-supervised shot contrastive learning approach (ShotCoL) to learn
a shot representation that maximizes the similarity between nearby shots
compared to randomly selected shots. We show how to apply our learned shot
representation for the task of scene boundary detection to offer
state-of-the-art performance on the MovieNet dataset while requiring only ~25%
of the training labels, using 9x fewer model parameters and offering 7x faster
runtime. To assess the effectiveness of ShotCoL on novel applications of scene
boundary detection, we take on the problem of finding timestamps in movies and
TV episodes where video-ads can be inserted while offering a minimally
disruptive viewing experience. To this end, we collected a new dataset called
AdCuepoints with 3,975 movies and TV episodes, 2.2 million shots and 19,119
minimally disruptive ad cue-point labels. We present a thorough empirical
analysis on this dataset demonstrating the effectiveness of ShotCoL for ad
cue-points detection.
- Abstract(参考訳): シーンは、映画やテレビ番組のストーリーラインを意味的に凝集した部分に分割する上で重要な役割を果たす。
しかし、複雑な時間構造を考えると、シーン境界を見つけることは大量のラベル付きトレーニングデータを必要とする難しい作業である。
そこで本研究では,ランダムに選択したショットに対して,近傍ショット間の類似性を最大化するショット表現を学習するために,自己教師付きショットコントラスト学習手法(shotcol)を提案する。
学習したショット表現をシーン境界検出のタスクに適用して、MovieNetデータセット上で最先端のパフォーマンスを提供する方法を示し、トレーニングラベルの25%しか必要とせず、モデルパラメータを9倍少なくし、ランタイムを7倍高速にする。
シーン境界検出の新たな応用におけるShotCoLの有効性を評価するため,最小限の破壊的な視聴体験を提供しながら,映像やテレビドラマのタイムスタンプを挿入できる問題に取り組む。
この目的のために、adcuepointsという新しいデータセットを収集し、3,975本の映画とテレビ番組、220万本のショットと19,119件の広告キュアポイントレーベルで収集した。
本稿では,ShotCoLのアドキューポイント検出における有効性を示す実験的検討を行った。
関連論文リスト
- Multi-Modal Domain Adaptation Across Video Scenes for Temporal Video
Grounding [59.599378814835205]
時間的ビデオグラウンドリング(TVG)は、与えられた言語クエリに基づいて、特定のセグメントの時間的境界を未トリミングビデオにローカライズすることを目的としている。
そこで本研究では,対象データからの洞察を取り入れた新たなAMDA手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T07:49:27Z) - Towards Active Learning for Action Spotting in Association Football
Videos [59.84375958757395]
フットボールビデオの分析は困難であり、微妙で多様な時間的パターンを特定する必要がある。
現在のアルゴリズムは、限られた注釈付きデータから学ぶ際に大きな課題に直面している。
次にアノテートすべき最も情報に富んだビデオサンプルを選択する能動的学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-09T11:50:41Z) - Scene Consistency Representation Learning for Video Scene Segmentation [26.790491577584366]
本稿では,長期ビデオからより優れたショット表現を学習するための,効果的な自己監視学習(SSL)フレームワークを提案する。
本稿では,シーンの一貫性を実現するためのSSLスキームを提案するとともに,モデルの一般化性を高めるためのデータ拡張とシャッフル手法について検討する。
本手法は,映像シーンのタスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-05-11T13:31:15Z) - Boundary-aware Self-supervised Learning for Video Scene Segmentation [20.713635723315527]
シーンセグメンテーション(英: Video scene segmentation)は、ビデオ内のシーン境界を時間的に局所化するタスクである。
本稿では,3つの境界対応プレテキストタスク,ショットシーンマッチング,コンテキストグループマッチング,擬似境界予測を紹介する。
我々はMovieNet-SSegベンチマークの最先端性を実現する。
論文 参考訳(メタデータ) (2022-01-14T02:14:07Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Toward Accurate Person-level Action Recognition in Videos of Crowded
Scenes [131.9067467127761]
我々は、シーンの情報を完全に活用し、新しいデータを集めることで、アクション認識を改善することに集中する。
具体的には、各フレームの空間的位置を検出するために、強い人間の検出器を採用する。
そして、行動認識モデルを適用して、HIEデータセットとインターネットから多様なシーンを持つ新しいデータの両方でビデオフレームから時間情報を学ぶ。
論文 参考訳(メタデータ) (2020-10-16T13:08:50Z) - Naive-Student: Leveraging Semi-Supervised Learning in Video Sequences
for Urban Scene Segmentation [57.68890534164427]
本研究では,未ラベル映像シーケンスと追加画像の半教師付き学習を利用して,都市景観セグメンテーションの性能を向上させることができるかどうかを問う。
我々は単にラベルのないデータに対して擬似ラベルを予測し、人間の注釈付きデータと擬似ラベル付きデータの両方でその後のモデルを訓練する。
我々のNaive-Studentモデルは、このような単純で効果的な反復的半教師付き学習で訓練され、3つのCityscapesベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-05-20T18:00:05Z) - Spatio-Temporal Event Segmentation and Localization for Wildlife
Extended Videos [6.279863832853343]
本稿では,時間的イベントセグメンテーションが可能な自己教師型予測フレームワークを提案する。
私たちは、標準的なディープラーニングのバックボーンによって計算される高レベルの機能の予測に頼っています。
野生生物モニタリングデータの10日間 (254時間) のビデオに対するアプローチを実演する。
論文 参考訳(メタデータ) (2020-05-05T20:11:48Z) - Event detection in coarsely annotated sports videos via parallel multi
receptive field 1D convolutions [14.30009544149561]
スポーツビデオ分析のような問題では、正確なフレームレベルのアノテーションと正確なイベント時間を得るのは難しい。
粗い注釈付きビデオにおけるイベント検出の課題を提案する。
本稿では,提案課題に対する多層時間畳み込みネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-04-13T19:51:25Z) - Revisiting Few-shot Activity Detection with Class Similarity Control [107.79338380065286]
本稿では,提案回帰に基づく数ショットの時間的活動検出のためのフレームワークを提案する。
我々のモデルはエンドツーエンドのトレーニングが可能で、数ショットのアクティビティと未トリミングなテストビデオのフレームレートの違いを考慮しており、さらに数ショットのサンプルの恩恵を受けることができる。
論文 参考訳(メタデータ) (2020-03-31T22:02:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。