論文の概要: SLIC: Self-Supervised Learning with Iterative Clustering for Human
Action Videos
- arxiv url: http://arxiv.org/abs/2206.12534v1
- Date: Sat, 25 Jun 2022 02:20:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 15:19:35.759760
- Title: SLIC: Self-Supervised Learning with Iterative Clustering for Human
Action Videos
- Title(参考訳): SLIC:人間のアクションビデオのための反復クラスタリングによる自己指導型学習
- Authors: Salar Hosseini Khorasgani, Yuxuan Chen, Florian Shkurti
- Abstract要約: 本研究では,人間のアクションビデオのためのクラスタリングに基づく自己教師付きコントラスト学習手法であるSLICを提案する。
我々の重要な貢献は、類似の動画インスタンスをグループ化するために反復的クラスタリングを用いることで、従来のビデオ内正のサンプリングを改善することである。
SLICはUCF101で83.2%、HMDB51で54.5%の精度(+0.8%)を達成した。
- 参考スコア(独自算出の注目度): 14.261054806885708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised methods have significantly closed the gap with end-to-end
supervised learning for image classification. In the case of human action
videos, however, where both appearance and motion are significant factors of
variation, this gap remains significant. One of the key reasons for this is
that sampling pairs of similar video clips, a required step for many
self-supervised contrastive learning methods, is currently done conservatively
to avoid false positives. A typical assumption is that similar clips only occur
temporally close within a single video, leading to insufficient examples of
motion similarity. To mitigate this, we propose SLIC, a clustering-based
self-supervised contrastive learning method for human action videos. Our key
contribution is that we improve upon the traditional intra-video positive
sampling by using iterative clustering to group similar video instances. This
enables our method to leverage pseudo-labels from the cluster assignments to
sample harder positives and negatives. SLIC outperforms state-of-the-art video
retrieval baselines by +15.4% on top-1 recall on UCF101 and by +5.7% when
directly transferred to HMDB51. With end-to-end finetuning for action
classification, SLIC achieves 83.2% top-1 accuracy (+0.8%) on UCF101 and 54.5%
on HMDB51 (+1.6%). SLIC is also competitive with the state-of-the-art in action
classification after self-supervised pretraining on Kinetics400.
- Abstract(参考訳): 自己教師付き手法は、画像分類のためのエンドツーエンド教師付き学習とは大きくギャップを閉じている。
しかし、人間のアクションビデオの場合、出現と動きの両方が変化の重要な要因である場合、このギャップは重要なままである。
この理由の1つは、多くの自己教師付きコントラスト学習手法に必要なステップである類似ビデオクリップのペアのサンプリングが、現在、偽陽性を避けるために保守的に行われていることである。
典型的な仮定は、類似のクリップは1つのビデオ内で時間的にのみ発生し、運動類似性の不十分な例につながるというものである。
そこで本研究では,人間のアクションビデオに対するクラスタリングに基づく自己教師付きコントラスト学習手法slicを提案する。
我々の重要な貢献は、類似の動画インスタンスをグループ化するために反復的クラスタリングを用いることで、従来のビデオ内正のサンプリングを改善することである。
これにより、クラスタ割り当てから擬似ラベルを活用でき、より厳しい正と負のサンプルをサンプリングできる。
SLICは最先端のビデオ検索ベースラインをUCF101の上位1回リコールで+15.4%、HMDB51に直接転送すると+5.7%上回る。
アクション分類のためのエンドツーエンドの微調整では、UCF101では83.2%の精度(+0.8%)、HMDB51では54.5%(+1.6%)を達成した。
また、SLICはキネティクス400の自己監督事前訓練の後に、最先端のアクション分類と競合する。
関連論文リスト
- HomE: Homography-Equivariant Video Representation Learning [62.89516761473129]
マルチビュービデオの表現学習のための新しい手法を提案する。
提案手法は異なる視点間の暗黙的なマッピングを学習し,近隣の視点間のホモグラフィ関係を維持する表現空間を決定づける。
動作分類では,UCF101データセットの96.4%の3倍精度が得られた。
論文 参考訳(メタデータ) (2023-06-02T15:37:43Z) - Motion Sensitive Contrastive Learning for Self-supervised Video
Representation [34.854431881562576]
動作感性コントラスト学習(MSCL)は、光学フローによって捉えられた動き情報をRGBフレームに注入し、特徴学習を強化する。
フレームレベルのコントラスト目標を持つ局所運動コントラスト学習(LMCL)。
Flow Rotation Augmentation (FRA) は追加のモーションシャッフル負のサンプルを生成し、Motion Differential Smpling (MDS) はトレーニングサンプルを正確にスクリーニングする。
論文 参考訳(メタデータ) (2022-08-12T04:06:56Z) - GOCA: Guided Online Cluster Assignment for Self-Supervised Video
Representation Learning [49.69279760597111]
クラスタリングは教師なし学習におけるユビキタスなツールです。
既存の自己教師型表現学習手法の多くは、視覚的に支配的な特徴に基づくクラスタサンプルが一般的である。
具体的には、各ビューの初期クラスタ割り当てを事前に使用して、他のビューの最終クラスタ割り当てをガイドする、新しいクラスタリング戦略を提案する。
論文 参考訳(メタデータ) (2022-07-20T19:26:55Z) - End-to-End Semi-Supervised Learning for Video Action Detection [23.042410033982193]
ラベルのないデータを効果的に活用するシンプルなエンドツーエンドアプローチを提案する。
ビデオアクション検出には、アクションクラス予測と時間的一貫性の両方が必要である。
提案手法が2つの異なる行動検出ベンチマークデータセットに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-03-08T18:11:25Z) - Self-Supervised Video Representation Learning with Meta-Contrastive
Network [10.768575680990415]
自己教師型アプローチの学習能力を高めるためのメタコントラストネットワーク(MCN)を提案する。
2つの下流タスク、すなわちビデオアクション認識とビデオ検索において、MCNは最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2021-08-19T01:21:13Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - TCLR: Temporal Contrastive Learning for Video Representation [49.6637562402604]
2つの新しい損失からなる新しい時間的コントラスト学習フレームワークを開発し、既存のコントラスト自己監督ビデオ表現学習方法を改善する。
一般的な3D-ResNet-18アーキテクチャでは、UCF101で82.4%(+5.1%)、HMDB51で52.9%(+5.4%)の精度を達成した。
論文 参考訳(メタデータ) (2021-01-20T05:38:16Z) - Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed
Videos [82.02074241700728]
本稿では,ビデオフレームラベルのみを用いてトレーニングした,禁止レベルの行動認識モデルを提案する。
人1人当たりの手法は、複数のインスタンス学習フレームワーク内の大規模な画像データセットで訓練されている。
標準的な多重インスタンス学習の仮定では、各バッグには、指定されたラベルを持つ少なくとも1つのインスタンスが含まれているという仮定が無効である場合、どのようにメソッドを適用するかを示す。
論文 参考訳(メタデータ) (2020-07-21T10:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。