論文の概要: UBoCo : Unsupervised Boundary Contrastive Learning for Generic Event
Boundary Detection
- arxiv url: http://arxiv.org/abs/2111.14799v2
- Date: Tue, 30 Nov 2021 02:29:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 12:02:59.491681
- Title: UBoCo : Unsupervised Boundary Contrastive Learning for Generic Event
Boundary Detection
- Title(参考訳): UBoCo : イベント境界検出のための教師なし境界コントラスト学習
- Authors: Hyolim Kang, Jinwoo Kim, Taehyun Kim, Seon Joo Kim
- Abstract要約: ジェネリックイベント境界検出(GEBD)は、イベントのより深いセマンティック境界を見つけることを目的としている。
本稿では,時間的自己相似行列(TSM)を映像表現として,教師なし・教師なしのEBDのための新しいフレームワークを提案する。
我々のフレームワークは、教師なしと教師なしの両方に応用でき、最先端のパフォーマンスを大きなマージンで達成できる。
- 参考スコア(独自算出の注目度): 27.29169136392871
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generic Event Boundary Detection (GEBD) is a newly suggested video
understanding task that aims to find one level deeper semantic boundaries of
events. Bridging the gap between natural human perception and video
understanding, it has various potential applications, including interpretable
and semantically valid video parsing. Still at an early development stage,
existing GEBD solvers are simple extensions of relevant video understanding
tasks, disregarding GEBD's distinctive characteristics. In this paper, we
propose a novel framework for unsupervised/supervised GEBD, by using the
Temporal Self-similarity Matrix (TSM) as the video representation. The new
Recursive TSM Parsing (RTP) algorithm exploits local diagonal patterns in TSM
to detect boundaries, and it is combined with the Boundary Contrastive (BoCo)
loss to train our encoder to generate more informative TSMs. Our framework can
be applied to both unsupervised and supervised settings, with both achieving
state-of-the-art performance by a huge margin in GEBD benchmark. Especially,
our unsupervised method outperforms the previous state-of-the-art "supervised"
model, implying its exceptional efficacy.
- Abstract(参考訳): ジェネリックイベント境界検出(GEBD)は、イベントのより深いセマンティック境界を見つけることを目的とした、新しく提案されたビデオ理解タスクである。
自然な人間の知覚とビデオ理解のギャップを埋めるため、解釈可能で意味的に有効なビデオ解析など、さまざまな応用が考えられる。
まだ開発の初期段階では、既存のGABDソルバは、GABDの特徴を無視して、関連ビデオ理解タスクの単純な拡張である。
本稿では,時間的自己相似行列(TSM)を映像表現として用いて,教師なし・教師なしGEBDのための新しいフレームワークを提案する。
新しいRecursive TSM Parsing (RTP)アルゴリズムは、TSMの局所対角パターンを利用して境界を検出する。
我々のフレームワークは教師なし設定と教師なし設定の両方に適用でき、GEBDベンチマークで最先端の性能を達成することができる。
特に, 教師なし手法は, 従来の教師なしモデルよりも優れており, その効果が示唆されている。
関連論文リスト
- Motion Aware Self-Supervision for Generic Event Boundary Detection [14.637933739152315]
ジェネリックイベント境界検出(GEBD)は、人間によって自然に認識されるビデオのモーメントを、ジェネリックおよび分類なしのイベント境界として検出することを目的としている。
既存のアプローチは、アーキテクチャ設計の選択の観点から非常に複雑で洗練されたパイプラインを含んでいる。
我々は,GEBDタスクにおける空間的・時間的多様性に対処するため,簡便で効果的な自己教師付き手法を再検討し,異なる動作特徴学習モジュールで拡張する。
論文 参考訳(メタデータ) (2022-10-11T16:09:13Z) - Embracing Consistency: A One-Stage Approach for Spatio-Temporal Video
Grounding [35.73830796500975]
本稿では、時空間整合性認識変換器(STCAT)と呼ばれるエンドツーエンドのワンステージフレームワークを提案する。
このテンプレートを十分な映像認識下で生成するために,効率的なグローバルコンテキストモデリングのためのエンコーダ・デコーダアーキテクチャを提案する。
提案手法は,2つの挑戦的ビデオベンチマークにおいて,従来の最先端技術よりも明らかなマージンで優れていた。
論文 参考訳(メタデータ) (2022-09-27T11:13:04Z) - Temporal Perceiver: A General Architecture for Arbitrary Boundary
Detection [48.33132632418303]
ジェネリック境界検出(GBD)は、動画をセマンティック・コヒーレントと分類なしの単位に分割する一般的な境界を特定することを目的としている。
従来の研究では、単純なCNNからLSTMまでの複雑なディープネットワークの設計で、これらの異なるレベルの汎用境界を別々に扱っていた。
本稿では,Transformer を用いた汎用アーキテクチャである Temporal Perceiver について述べる。
論文 参考訳(メタデータ) (2022-03-01T09:31:30Z) - Self-supervised Learning for Semi-supervised Temporal Language Grounding [84.11582376377471]
時間的言語接地(TLG)は、ビデオ中の特定の意味を含むセグメントの時間的境界をローカライズすることを目的としている。
以前の作業では、大量の手動アノテーションを必要とする完全に教師された設定や、満足のいくパフォーマンスを達成できない弱監督された設定で、このタスクに取り組みました。
アノテーションを限定して高い性能を達成するため,この課題を半教師付き方法で解決し,半教師付きテンポラル言語グラウンドディング(STLG)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-23T16:29:16Z) - Weakly-Supervised Spatio-Temporal Anomaly Detection in Surveillance
Video [128.41392860714635]
Weakly-Supervised Snoma-Temporally Detection (WSSTAD) を監視ビデオに導入する。
WSSTADは異常事象を封止する時空間管(すなわち連続する境界ボックスのシーケンス)をローカライズすることを目的としている。
本稿では,空間的・時間的領域に複数粒度を持つ入力提案を行うデュアルブランチネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:11:14Z) - Weakly Supervised Temporal Adjacent Network for Language Grounding [96.09453060585497]
本稿では,時間的言語接地のための新しい教師付き時間的隣接ネットワーク(WSTAN)を提案する。
WSTANは、複数のインスタンス学習(MIL)パラダイムにおいて、時間的隣接ネットワークを活用することで、モーダル間のセマンティックアライメントを学習する。
MILブランチと補完ブランチの両方で、自己監督による意味的識別を強化するために、追加の自己識別損失が考案された。
論文 参考訳(メタデータ) (2021-06-30T15:42:08Z) - Winning the CVPR'2021 Kinetics-GEBD Challenge: Contrastive Learning
Approach [27.904987752334314]
本稿では,ジェネリックイベント境界検出タスクに対処するための,新しいコントラスト学習に基づくアプローチを提案する。
本モデルでは,時間的自己相似行列(TSM)を中間表現として利用し,情報ボトルネックとしての役割を担っている。
論文 参考訳(メタデータ) (2021-06-22T05:21:59Z) - MIST: Multiple Instance Self-Training Framework for Video Anomaly
Detection [76.80153360498797]
タスク固有の識別表現を効率的に洗練するためのマルチインスタンス自己学習フレームワーク(MIST)を開発した。
mistは1)スパース連続サンプリング戦略を適用し,より信頼性の高いクリップレベル擬似ラベルを生成するマルチインスタンス擬似ラベル生成器,2)自己誘導型注意強調特徴エンコーダで構成される。
本手法は,上海技術におけるフレームレベルのAUC 94.83%の取得において,既存の教師付きおよび弱教師付き手法と同等あるいはそれ以上に機能する。
論文 参考訳(メタデータ) (2021-04-04T15:47:14Z) - Generic Event Boundary Detection: A Benchmark for Event Segmentation [21.914662894860474]
本稿では,ビデオ全体をチャンクに分割する一般的な分類のないイベント境界を検出するための新しいベンチマークとともに,新しいタスクを提案する。
本稿では,ジェネリックイベント境界検出(GEBD)と新しいベンチマークKinetics-GEBDを提案する。
人間が未来を正確に予測できない地点で境界をマークするという認知的発見に触発されて、教師なしのアプローチを探求する。
論文 参考訳(メタデータ) (2021-01-26T01:31:30Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。