論文の概要: CoSeg: Cognitively Inspired Unsupervised Generic Event Segmentation
- arxiv url: http://arxiv.org/abs/2109.15170v1
- Date: Thu, 30 Sep 2021 14:40:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-01 18:36:26.506933
- Title: CoSeg: Cognitively Inspired Unsupervised Generic Event Segmentation
- Title(参考訳): CoSeg:認知にインスパイアされた教師なしのイベントセグメンテーション
- Authors: Xiao Wang, Jingen Liu, Tao Mei, Jiebo Luo
- Abstract要約: イベントセグメンテーション/バウンダリ検出のためのエンドツーエンドの自己教師型学習フレームワークを提案する。
本フレームワークは, イベント境界を再構成誤差で検出するトランスフォーマーに基づく特徴再構成手法を利用する。
私たちの研究の目標は、特定のイベントをローカライズするのではなく、ジェネリックイベントをセグメント化することです。
- 参考スコア(独自算出の注目度): 118.18977078626776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Some cognitive research has discovered that humans accomplish event
segmentation as a side effect of event anticipation. Inspired by this
discovery, we propose a simple yet effective end-to-end self-supervised
learning framework for event segmentation/boundary detection. Unlike the
mainstream clustering-based methods, our framework exploits a transformer-based
feature reconstruction scheme to detect event boundary by reconstruction
errors. This is consistent with the fact that humans spot new events by
leveraging the deviation between their prediction and what is actually
perceived. Thanks to their heterogeneity in semantics, the frames at boundaries
are difficult to be reconstructed (generally with large reconstruction errors),
which is favorable for event boundary detection. Additionally, since the
reconstruction occurs on the semantic feature level instead of pixel level, we
develop a temporal contrastive feature embedding module to learn the semantic
visual representation for frame feature reconstruction. This procedure is like
humans building up experiences with "long-term memory". The goal of our work is
to segment generic events rather than localize some specific ones. We focus on
achieving accurate event boundaries. As a result, we adopt F1 score
(Precision/Recall) as our primary evaluation metric for a fair comparison with
previous approaches. Meanwhile, we also calculate the conventional frame-based
MoF and IoU metric. We thoroughly benchmark our work on four publicly available
datasets and demonstrate much better results.
- Abstract(参考訳): いくつかの認知研究は、人間が事象予測の副作用としてイベントセグメンテーションを達成することを発見した。
この発見に触発されて、イベントセグメンテーション/バウンダリ検出のための、シンプルで効果的なエンドツーエンドの自己教師付き学習フレームワークを提案する。
主流クラスタリング方式とは異なり,本フレームワークは変換器を用いた特徴再構成方式を利用してイベント境界の検出を行う。
これは、人間が予測と実際に知覚されるものの間の偏差を利用して新しい事象を発見するという事実と一致している。
セマンティクスにおける不均一性のため、境界のフレームは(一般的には大規模な再構成誤りを伴う)再構成が困難であり、イベント境界の検出に好適である。
また、画素レベルではなく意味的特徴レベルで再構成が行われるため、フレーム特徴再構成のための意味的視覚表現を学習するための時間的コントラスト的特徴埋め込みモジュールを開発する。
この手順は、人間が「長期記憶」で経験を積み上げるようなものです。
私たちの仕事の目標は、特定のイベントをローカライズするのではなく、ジェネリックイベントをセグメント化することです。
正確なイベント境界を達成することに注力します。
その結果,F1スコア(Precision/Recall)を主評価基準として,従来の手法と比較した。
一方、従来のフレームベースのMoFとIoUの計量も計算する。
公開データセット4つについて、徹底的にベンチマークを行い、より優れた結果を示します。
関連論文リスト
- Finding Meaning in Points: Weakly Supervised Semantic Segmentation for Event Cameras [45.063747874243276]
本稿では,イベントベースセマンティックセマンティックセグメンテーションのための新しい弱教師付きアプローチEV-WSSSを提案する。
提案フレームワークは,(1)前向きのイベントデータと(2)逆向きのイベントデータとの間に非対称な二重学習を行う。
提案手法は,画素レベルの高密度地下真実に頼らずとも,かなりのセグメンテーション結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-15T20:00:50Z) - Visual Context-Aware Person Fall Detection [52.49277799455569]
画像中の個人とオブジェクトを半自動分離するセグメンテーションパイプラインを提案する。
ベッド、椅子、車椅子などの背景オブジェクトは、転倒検知システムに挑戦し、誤ったポジティブアラームを引き起こす。
トレーニング中のオブジェクト固有のコンテキスト変換が、この課題を効果的に軽減することを示す。
論文 参考訳(メタデータ) (2024-04-11T19:06:36Z) - AttenScribble: Attentive Similarity Learning for Scribble-Supervised
Medical Image Segmentation [5.8447004333496855]
本稿では,単純かつ効果的なスクリブル教師あり学習フレームワークを提案する。
我々は、任意の完全畳み込みネットワーク(FCN)バックボーンの内部特徴層の上に、接続可能な空間自己アテンションモジュールを作成する。
この注意深い類似性は、セグメンテーション予測と視覚親和性の一貫性を課する新たな正規化損失をもたらす。
論文 参考訳(メタデータ) (2023-12-11T18:42:18Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - Prototypical Kernel Learning and Open-set Foreground Perception for
Generalized Few-shot Semantic Segmentation [7.707161030443157]
Generalized Few-shot Semantic (GFSS)は、Few-shot Semanticアグリゲーションを拡張して、未確認のクラスと評価中のクラスを分割する。
上記の問題に対して,原型的カーネル学習とオープンセット認識を融合させることで対処する。
さらに、条件バイアスに基づく推論と協調する前景文脈知覚モジュールを採用し、クラス非依存およびオープンセット前景検出を行う。
論文 参考訳(メタデータ) (2023-08-09T13:38:52Z) - Structured Context Transformer for Generic Event Boundary Detection [32.09242716244653]
我々は、ジェネリックイベント境界検出タスクを解決するために、構造化コンテキスト変換器(SC-Transformer)を提案する。
バックボーン畳み込みニューラルネットワーク(CNN)を用いて,各ビデオフレームの特徴を抽出する。
グループ化された類似性マップに基づいてイベント境界を決定するために、軽量な完全畳み込みネットワークが使用される。
論文 参考訳(メタデータ) (2022-06-07T03:00:24Z) - Unsupervised Part Discovery from Contrastive Reconstruction [90.88501867321573]
自己監督型視覚表現学習の目標は、強く伝達可能な画像表現を学習することである。
対象部分の発見とセグメンテーションに対する教師なしアプローチを提案する。
本手法は, 細粒度, 視覚的に異なるカテゴリ間でセマンティックな部分を生成する。
論文 参考訳(メタデータ) (2021-11-11T17:59:42Z) - Revisiting Contrastive Methods for Unsupervised Learning of Visual
Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。
本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。
現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文 参考訳(メタデータ) (2021-06-10T17:59:13Z) - Generic Event Boundary Detection: A Benchmark for Event Segmentation [21.914662894860474]
本稿では,ビデオ全体をチャンクに分割する一般的な分類のないイベント境界を検出するための新しいベンチマークとともに,新しいタスクを提案する。
本稿では,ジェネリックイベント境界検出(GEBD)と新しいベンチマークKinetics-GEBDを提案する。
人間が未来を正確に予測できない地点で境界をマークするという認知的発見に触発されて、教師なしのアプローチを探求する。
論文 参考訳(メタデータ) (2021-01-26T01:31:30Z) - Unsupervised Feature Learning for Event Data: Direct vs Inverse Problem
Formulation [53.850686395708905]
イベントベースのカメラは、ピクセルごとの明るさ変化の非同期ストリームを記録する。
本稿では,イベントデータからの表現学習のための単一層アーキテクチャに焦点を当てる。
我々は,最先端手法と比較して,認識精度が最大9%向上したことを示す。
論文 参考訳(メタデータ) (2020-09-23T10:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。