Fugu-MT 論文翻訳(概要): UBoCo : Unsupervised Boundary Contrastive Learning for Generic Event Boundary Detection

論文の概要: UBoCo : Unsupervised Boundary Contrastive Learning for Generic Event Boundary Detection

arxiv url: http://arxiv.org/abs/2111.14799v2
Date: Tue, 30 Nov 2021 02:29:38 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-01 12:02:59.491681
Title: UBoCo : Unsupervised Boundary Contrastive Learning for Generic Event Boundary Detection
Title（参考訳）: UBoCo : イベント境界検出のための教師なし境界コントラスト学習
Authors: Hyolim Kang, Jinwoo Kim, Taehyun Kim, Seon Joo Kim
Abstract要約: ジェネリックイベント境界検出(GEBD)は、イベントのより深いセマンティック境界を見つけることを目的としている。本稿では,時間的自己相似行列(TSM)を映像表現として,教師なし・教師なしのEBDのための新しいフレームワークを提案する。我々のフレームワークは、教師なしと教師なしの両方に応用でき、最先端のパフォーマンスを大きなマージンで達成できる。
参考スコア（独自算出の注目度）: 27.29169136392871
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generic Event Boundary Detection (GEBD) is a newly suggested video understanding task that aims to find one level deeper semantic boundaries of events. Bridging the gap between natural human perception and video understanding, it has various potential applications, including interpretable and semantically valid video parsing. Still at an early development stage, existing GEBD solvers are simple extensions of relevant video understanding tasks, disregarding GEBD's distinctive characteristics. In this paper, we propose a novel framework for unsupervised/supervised GEBD, by using the Temporal Self-similarity Matrix (TSM) as the video representation. The new Recursive TSM Parsing (RTP) algorithm exploits local diagonal patterns in TSM to detect boundaries, and it is combined with the Boundary Contrastive (BoCo) loss to train our encoder to generate more informative TSMs. Our framework can be applied to both unsupervised and supervised settings, with both achieving state-of-the-art performance by a huge margin in GEBD benchmark. Especially, our unsupervised method outperforms the previous state-of-the-art "supervised" model, implying its exceptional efficacy.
Abstract（参考訳）: ジェネリックイベント境界検出(GEBD)は、イベントのより深いセマンティック境界を見つけることを目的とした、新しく提案されたビデオ理解タスクである。自然な人間の知覚とビデオ理解のギャップを埋めるため、解釈可能で意味的に有効なビデオ解析など、さまざまな応用が考えられる。まだ開発の初期段階では、既存のGABDソルバは、GABDの特徴を無視して、関連ビデオ理解タスクの単純な拡張である。本稿では,時間的自己相似行列(TSM)を映像表現として用いて,教師なし・教師なしGEBDのための新しいフレームワークを提案する。新しいRecursive TSM Parsing (RTP)アルゴリズムは、TSMの局所対角パターンを利用して境界を検出する。我々のフレームワークは教師なし設定と教師なし設定の両方に適用でき、GEBDベンチマークで最先端の性能を達成することができる。特に, 教師なし手法は, 従来の教師なしモデルよりも優れており, その効果が示唆されている。

関連論文リスト

Online Generic Event Boundary Detection [27.34486732049466]
ストリーミングビデオにおけるジェネリックイベントの境界を検出することを目的とした,オンラインジェネリックイベント境界検出(On-GEBD)というタスクを導入する。このタスクは、将来的なフレームへのアクセスなしに、微妙で分類なしのイベント変更をリアルタイムで特定する、というユニークな課題に直面している。本研究では,予測情報と実際の情報との相違を利用して,人間が現在進行中の活動をイベントに分割する方法を説明するイベント理論(EST)に着想を得た新しいオン・GEBDフレームワークを提案する。
論文参考訳（メタデータ） (2025-10-08T10:23:45Z)
Rethinking the Architecture Design for Efficient Generic Event Boundary Detection [71.50748944513379]
ジェネリック(GEBD)は、ビデオを一貫した時間的チャンクに分割する人間の視覚的認知的行動にインスパイアされている。 SOTA GEBDモデルは、しばしばモデル複雑さよりも最終的なパフォーマンスを優先し、推論速度を低くし、現実のシナリオにおける効率的なデプロイメントを妨げる。我々は,GEBDモデルのアーキテクチャを実験的に再検討し,この問題に対処するために貢献する。
論文参考訳（メタデータ） (2024-07-17T14:49:54Z)
Fine-grained Dynamic Network for Generic Event Boundary Detection [9.17191007695011]
そこで我々は,DyBDetという汎用イベント境界のための新しい動的パイプラインを提案する。マルチエグジットネットワークアーキテクチャを導入することで、DyBDetは、異なるビデオスニペットへのアロケーションを自動的に学習する。 Kinetics-GEBD と TAPOS のデータセットに挑戦する実験では、動的戦略の採用が GEBD タスクに大きく貢献することを示した。
論文参考訳（メタデータ） (2024-07-05T06:02:46Z)
Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding [70.31050639330603]
ビデオ段落の接頭辞は、意味的関係と時間的順序を持つ複数の文を、トリミングされていないビデオからローカライズすることを目的としている。既存のVPGアプローチは、かなりの数の時間ラベルに大きく依存している。我々は、時間的アノテーションの必要性を排除するために、Wakly-Supervised Video paragraph Grounding (WSVPG)を導入し、探索する。
論文参考訳（メタデータ） (2024-03-18T04:30:31Z)
Unified Domain Adaptive Semantic Segmentation [96.74199626935294]
Unsupervised Adaptive Domain Semantic (UDA-SS)は、ラベル付きソースドメインからラベル付きターゲットドメインに監督を移すことを目的としている。本稿では,特徴量と特徴量との相違に対処するQuad-directional Mixup(QuadMix)法を提案する。提案手法は,4つの挑戦的UDA-SSベンチマークにおいて,最先端の成果を大きなマージンで上回っている。
論文参考訳（メタデータ） (2023-11-22T09:18:49Z)
Motion Aware Self-Supervision for Generic Event Boundary Detection [14.637933739152315]
ジェネリックイベント境界検出(GEBD)は、人間によって自然に認識されるビデオのモーメントを、ジェネリックおよび分類なしのイベント境界として検出することを目的としている。既存のアプローチは、アーキテクチャ設計の選択の観点から非常に複雑で洗練されたパイプラインを含んでいる。我々は,GEBDタスクにおける空間的・時間的多様性に対処するため,簡便で効果的な自己教師付き手法を再検討し,異なる動作特徴学習モジュールで拡張する。
論文参考訳（メタデータ） (2022-10-11T16:09:13Z)
Embracing Consistency: A One-Stage Approach for Spatio-Temporal Video Grounding [35.73830796500975]
本稿では、時空間整合性認識変換器(STCAT)と呼ばれるエンドツーエンドのワンステージフレームワークを提案する。このテンプレートを十分な映像認識下で生成するために,効率的なグローバルコンテキストモデリングのためのエンコーダ・デコーダアーキテクチャを提案する。提案手法は,2つの挑戦的ビデオベンチマークにおいて,従来の最先端技術よりも明らかなマージンで優れていた。
論文参考訳（メタデータ） (2022-09-27T11:13:04Z)
Weakly-Supervised Spatio-Temporal Anomaly Detection in Surveillance Video [128.41392860714635]
Weakly-Supervised Snoma-Temporally Detection (WSSTAD) を監視ビデオに導入する。 WSSTADは異常事象を封止する時空間管(すなわち連続する境界ボックスのシーケンス)をローカライズすることを目的としている。本稿では,空間的・時間的領域に複数粒度を持つ入力提案を行うデュアルブランチネットワークを提案する。
論文参考訳（メタデータ） (2021-08-09T06:11:14Z)
Weakly Supervised Temporal Adjacent Network for Language Grounding [96.09453060585497]
本稿では,時間的言語接地のための新しい教師付き時間的隣接ネットワーク(WSTAN)を提案する。 WSTANは、複数のインスタンス学習(MIL)パラダイムにおいて、時間的隣接ネットワークを活用することで、モーダル間のセマンティックアライメントを学習する。 MILブランチと補完ブランチの両方で、自己監督による意味的識別を強化するために、追加の自己識別損失が考案された。
論文参考訳（メタデータ） (2021-06-30T15:42:08Z)
Winning the CVPR'2021 Kinetics-GEBD Challenge: Contrastive Learning Approach [27.904987752334314]
本稿では,ジェネリックイベント境界検出タスクに対処するための,新しいコントラスト学習に基づくアプローチを提案する。本モデルでは,時間的自己相似行列(TSM)を中間表現として利用し,情報ボトルネックとしての役割を担っている。
論文参考訳（メタデータ） (2021-06-22T05:21:59Z)
MIST: Multiple Instance Self-Training Framework for Video Anomaly Detection [76.80153360498797]
タスク固有の識別表現を効率的に洗練するためのマルチインスタンス自己学習フレームワーク(MIST)を開発した。 mistは1)スパース連続サンプリング戦略を適用し,より信頼性の高いクリップレベル擬似ラベルを生成するマルチインスタンス擬似ラベル生成器,2)自己誘導型注意強調特徴エンコーダで構成される。本手法は,上海技術におけるフレームレベルのAUC 94.83%の取得において,既存の教師付きおよび弱教師付き手法と同等あるいはそれ以上に機能する。
論文参考訳（メタデータ） (2021-04-04T15:47:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。