論文の概要: Winning the CVPR'2021 Kinetics-GEBD Challenge: Contrastive Learning
Approach
- arxiv url: http://arxiv.org/abs/2106.11549v1
- Date: Tue, 22 Jun 2021 05:21:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-23 14:58:12.670529
- Title: Winning the CVPR'2021 Kinetics-GEBD Challenge: Contrastive Learning
Approach
- Title(参考訳): CVPR'2021 Kinetics-GEBD Challenge: Contrastive Learning Approach
- Authors: Hyolim Kang, Jinwoo Kim, Kyungmin Kim, Taehyun Kim, Seon Joo Kim
- Abstract要約: 本稿では,ジェネリックイベント境界検出タスクに対処するための,新しいコントラスト学習に基づくアプローチを提案する。
本モデルでは,時間的自己相似行列(TSM)を中間表現として利用し,情報ボトルネックとしての役割を担っている。
- 参考スコア(独自算出の注目度): 27.904987752334314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generic Event Boundary Detection (GEBD) is a newly introduced task that aims
to detect "general" event boundaries that correspond to natural human
perception. In this paper, we introduce a novel contrastive learning based
approach to deal with the GEBD. Our intuition is that the feature similarity of
the video snippet would significantly vary near the event boundaries, while
remaining relatively the same in the remaining part of the video. In our model,
Temporal Self-similarity Matrix (TSM) is utilized as an intermediate
representation which takes on a role as an information bottleneck. With our
model, we achieved significant performance boost compared to the given
baselines. Our code is available at
https://github.com/hello-jinwoo/LOVEU-CVPR2021.
- Abstract(参考訳): ジェネリックイベント境界検出(GEBD)は、人間の知覚に対応する「一般的な」イベント境界を検出することを目的とした、新しく導入されたタスクである。
本稿では,GEBDに対処する新しいコントラスト学習手法を提案する。
直感的には、ビデオスニペットの特徴的類似性はイベントバウンダリ付近で大きく異なるが、ビデオの残りの部分では相対的に同じである。
本モデルでは,情報ボトルネックとしての役割を担う中間表現として,時間的自己相似性行列(tsm)を用いる。
私たちのモデルでは、与えられたベースラインと比較して大きなパフォーマンス向上を達成しました。
私たちのコードはhttps://github.com/hello-jinwoo/loveu-cvpr2021で利用可能です。
関連論文リスト
- Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Generic Event Boundary Detection in Video with Pyramid Features [12.896848011230523]
ジェネリックイベントバウンダリ検出(GEBD)は、人間が自然にイベントバウンダリを知覚する幅広い多様なアクションセットで、ビデオをチャンクに分割することを目的としている。
本稿では,隣接するフレームとピラミッド特徴写像の空間次元と時間次元の相関を考察する。
論文 参考訳(メタデータ) (2023-01-11T03:29:27Z) - UBoCo : Unsupervised Boundary Contrastive Learning for Generic Event
Boundary Detection [27.29169136392871]
ジェネリックイベント境界検出(GEBD)は、イベントのより深いセマンティック境界を見つけることを目的としている。
本稿では,時間的自己相似行列(TSM)を映像表現として,教師なし・教師なしのEBDのための新しいフレームワークを提案する。
我々のフレームワークは、教師なしと教師なしの両方に応用でき、最先端のパフォーマンスを大きなマージンで達成できる。
論文 参考訳(メタデータ) (2021-11-29T18:50:39Z) - Instance-Level Relative Saliency Ranking with Graph Reasoning [126.09138829920627]
そこで本研究では,有意な事例を分割し,相対的有意な有意なランク順序を推定するための統一モデルを提案する。
また、サラレンシーランキングブランチを効果的にトレーニングするために、新しい損失関数も提案されている。
実験の結果,提案手法は従来の手法よりも有効であることがわかった。
論文 参考訳(メタデータ) (2021-07-08T13:10:42Z) - Revisiting Contrastive Methods for Unsupervised Learning of Visual
Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。
本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。
現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文 参考訳(メタデータ) (2021-06-10T17:59:13Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Generic Event Boundary Detection: A Benchmark for Event Segmentation [21.914662894860474]
本稿では,ビデオ全体をチャンクに分割する一般的な分類のないイベント境界を検出するための新しいベンチマークとともに,新しいタスクを提案する。
本稿では,ジェネリックイベント境界検出(GEBD)と新しいベンチマークKinetics-GEBDを提案する。
人間が未来を正確に予測できない地点で境界をマークするという認知的発見に触発されて、教師なしのアプローチを探求する。
論文 参考訳(メタデータ) (2021-01-26T01:31:30Z) - Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed
Videos [82.02074241700728]
本稿では,ビデオフレームラベルのみを用いてトレーニングした,禁止レベルの行動認識モデルを提案する。
人1人当たりの手法は、複数のインスタンス学習フレームワーク内の大規模な画像データセットで訓練されている。
標準的な多重インスタンス学習の仮定では、各バッグには、指定されたラベルを持つ少なくとも1つのインスタンスが含まれているという仮定が無効である場合、どのようにメソッドを適用するかを示す。
論文 参考訳(メタデータ) (2020-07-21T10:45:05Z) - Not only Look, but also Listen: Learning Multimodal Violence Detection
under Weak Supervision [10.859792341257931]
われわれはまず、XD-Violenceという大規模なマルチシーンデータセットを217時間でリリースした。
ビデオスニペット間の異なる関係を捉え,特徴を統合するために,3つの並列分岐を含むニューラルネットワークを提案する。
提案手法は,我々のリリースしたデータセットや他の既存のベンチマークにおいて,最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2020-07-09T10:29:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。