論文の概要: UBoCo : Unsupervised Boundary Contrastive Learning for Generic Event
Boundary Detection
- arxiv url: http://arxiv.org/abs/2111.14799v1
- Date: Mon, 29 Nov 2021 18:50:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 15:34:44.133153
- Title: UBoCo : Unsupervised Boundary Contrastive Learning for Generic Event
Boundary Detection
- Title(参考訳): UBoCo : イベント境界検出のための教師なし境界コントラスト学習
- Authors: Hyolim Kang, Jinwoo Kim, Taehyun Kim, Seon Joo Kim
- Abstract要約: ジェネリックイベント境界検出(GEBD)は、イベントのより深いセマンティック境界を見つけることを目的としている。
本稿では,時間的自己相似行列(TSM)を映像表現として,教師なし・教師なしのEBDのための新しいフレームワークを提案する。
我々のフレームワークは、教師なしと教師なしの両方に応用でき、最先端のパフォーマンスを大きなマージンで達成できる。
- 参考スコア(独自算出の注目度): 27.29169136392871
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generic Event Boundary Detection (GEBD) is a newly suggested video
understanding task that aims to find one level deeper semantic boundaries of
events. Bridging the gap between natural human perception and video
understanding, it has various potential applications, including interpretable
and semantically valid video parsing. Still at an early development stage,
existing GEBD solvers are simple extensions of relevant video understanding
tasks, disregarding GEBD's distinctive characteristics. In this paper, we
propose a novel framework for unsupervised/supervised GEBD, by using the
Temporal Self-similarity Matrix (TSM) as the video representation. The new
Recursive TSM Parsing (RTP) algorithm exploits local diagonal patterns in TSM
to detect boundaries, and it is combined with the Boundary Contrastive (BoCo)
loss to train our encoder to generate more informative TSMs. Our framework can
be applied to both unsupervised and supervised settings, with both achieving
state-of-the-art performance by a huge margin in GEBD benchmark. Especially,
our unsupervised method outperforms the previous state-of-the-art "supervised"
model, implying its exceptional efficacy.
- Abstract(参考訳): ジェネリックイベント境界検出(GEBD)は、イベントのより深いセマンティック境界を見つけることを目的とした、新しく提案されたビデオ理解タスクである。
自然な人間の知覚とビデオ理解のギャップを埋めるため、解釈可能で意味的に有効なビデオ解析など、さまざまな応用が考えられる。
まだ開発の初期段階では、既存のGABDソルバは、GABDの特徴を無視して、関連ビデオ理解タスクの単純な拡張である。
本稿では,時間的自己相似行列(TSM)を映像表現として用いて,教師なし・教師なしGEBDのための新しいフレームワークを提案する。
新しいRecursive TSM Parsing (RTP)アルゴリズムは、TSMの局所対角パターンを利用して境界を検出する。
我々のフレームワークは教師なし設定と教師なし設定の両方に適用でき、GEBDベンチマークで最先端の性能を達成することができる。
特に, 教師なし手法は, 従来の教師なしモデルよりも優れており, その効果が示唆されている。
関連論文リスト
- Rethinking the Architecture Design for Efficient Generic Event Boundary Detection [71.50748944513379]
ジェネリック(GEBD)は、ビデオを一貫した時間的チャンクに分割する人間の視覚的認知的行動にインスパイアされている。
SOTA GEBDモデルは、しばしばモデル複雑さよりも最終的なパフォーマンスを優先し、推論速度を低くし、現実のシナリオにおける効率的なデプロイメントを妨げる。
我々は,GEBDモデルのアーキテクチャを実験的に再検討し,この問題に対処するために貢献する。
論文 参考訳(メタデータ) (2024-07-17T14:49:54Z) - Fine-grained Dynamic Network for Generic Event Boundary Detection [9.17191007695011]
そこで我々は,DyBDetという汎用イベント境界のための新しい動的パイプラインを提案する。
マルチエグジットネットワークアーキテクチャを導入することで、DyBDetは、異なるビデオスニペットへのアロケーションを自動的に学習する。
Kinetics-GEBD と TAPOS のデータセットに挑戦する実験では、動的戦略の採用が GEBD タスクに大きく貢献することを示した。
論文 参考訳(メタデータ) (2024-07-05T06:02:46Z) - Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding [70.31050639330603]
ビデオ段落の接頭辞は、意味的関係と時間的順序を持つ複数の文を、トリミングされていないビデオからローカライズすることを目的としている。
既存のVPGアプローチは、かなりの数の時間ラベルに大きく依存している。
我々は、時間的アノテーションの必要性を排除するために、Wakly-Supervised Video paragraph Grounding (WSVPG)を導入し、探索する。
論文 参考訳(メタデータ) (2024-03-18T04:30:31Z) - Unified Domain Adaptive Semantic Segmentation [96.74199626935294]
Unsupervised Adaptive Domain Semantic (UDA-SS)は、ラベル付きソースドメインからラベル付きターゲットドメインに監督を移すことを目的としている。
本稿では,特徴量と特徴量との相違に対処するQuad-directional Mixup(QuadMix)法を提案する。
提案手法は,4つの挑戦的UDA-SSベンチマークにおいて,最先端の成果を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2023-11-22T09:18:49Z) - Motion Aware Self-Supervision for Generic Event Boundary Detection [14.637933739152315]
ジェネリックイベント境界検出(GEBD)は、人間によって自然に認識されるビデオのモーメントを、ジェネリックおよび分類なしのイベント境界として検出することを目的としている。
既存のアプローチは、アーキテクチャ設計の選択の観点から非常に複雑で洗練されたパイプラインを含んでいる。
我々は,GEBDタスクにおける空間的・時間的多様性に対処するため,簡便で効果的な自己教師付き手法を再検討し,異なる動作特徴学習モジュールで拡張する。
論文 参考訳(メタデータ) (2022-10-11T16:09:13Z) - Embracing Consistency: A One-Stage Approach for Spatio-Temporal Video
Grounding [35.73830796500975]
本稿では、時空間整合性認識変換器(STCAT)と呼ばれるエンドツーエンドのワンステージフレームワークを提案する。
このテンプレートを十分な映像認識下で生成するために,効率的なグローバルコンテキストモデリングのためのエンコーダ・デコーダアーキテクチャを提案する。
提案手法は,2つの挑戦的ビデオベンチマークにおいて,従来の最先端技術よりも明らかなマージンで優れていた。
論文 参考訳(メタデータ) (2022-09-27T11:13:04Z) - Weakly-Supervised Spatio-Temporal Anomaly Detection in Surveillance
Video [128.41392860714635]
Weakly-Supervised Snoma-Temporally Detection (WSSTAD) を監視ビデオに導入する。
WSSTADは異常事象を封止する時空間管(すなわち連続する境界ボックスのシーケンス)をローカライズすることを目的としている。
本稿では,空間的・時間的領域に複数粒度を持つ入力提案を行うデュアルブランチネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:11:14Z) - Weakly Supervised Temporal Adjacent Network for Language Grounding [96.09453060585497]
本稿では,時間的言語接地のための新しい教師付き時間的隣接ネットワーク(WSTAN)を提案する。
WSTANは、複数のインスタンス学習(MIL)パラダイムにおいて、時間的隣接ネットワークを活用することで、モーダル間のセマンティックアライメントを学習する。
MILブランチと補完ブランチの両方で、自己監督による意味的識別を強化するために、追加の自己識別損失が考案された。
論文 参考訳(メタデータ) (2021-06-30T15:42:08Z) - Winning the CVPR'2021 Kinetics-GEBD Challenge: Contrastive Learning
Approach [27.904987752334314]
本稿では,ジェネリックイベント境界検出タスクに対処するための,新しいコントラスト学習に基づくアプローチを提案する。
本モデルでは,時間的自己相似行列(TSM)を中間表現として利用し,情報ボトルネックとしての役割を担っている。
論文 参考訳(メタデータ) (2021-06-22T05:21:59Z) - MIST: Multiple Instance Self-Training Framework for Video Anomaly
Detection [76.80153360498797]
タスク固有の識別表現を効率的に洗練するためのマルチインスタンス自己学習フレームワーク(MIST)を開発した。
mistは1)スパース連続サンプリング戦略を適用し,より信頼性の高いクリップレベル擬似ラベルを生成するマルチインスタンス擬似ラベル生成器,2)自己誘導型注意強調特徴エンコーダで構成される。
本手法は,上海技術におけるフレームレベルのAUC 94.83%の取得において,既存の教師付きおよび弱教師付き手法と同等あるいはそれ以上に機能する。
論文 参考訳(メタデータ) (2021-04-04T15:47:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。