論文の概要: GOCA: Guided Online Cluster Assignment for Self-Supervised Video
Representation Learning
- arxiv url: http://arxiv.org/abs/2207.10158v1
- Date: Wed, 20 Jul 2022 19:26:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 12:51:01.690311
- Title: GOCA: Guided Online Cluster Assignment for Self-Supervised Video
Representation Learning
- Title(参考訳): GOCA:自己監督型ビデオ表現学習のためのオンラインクラスタアサインメント
- Authors: Huseyin Coskun and Alireza Zareian and Joshua L. Moore and Federico
Tombari, Chen Wang
- Abstract要約: クラスタリングは教師なし学習におけるユビキタスなツールです。
既存の自己教師型表現学習手法の多くは、視覚的に支配的な特徴に基づくクラスタサンプルが一般的である。
具体的には、各ビューの初期クラスタ割り当てを事前に使用して、他のビューの最終クラスタ割り当てをガイドする、新しいクラスタリング戦略を提案する。
- 参考スコア(独自算出の注目度): 49.69279760597111
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clustering is a ubiquitous tool in unsupervised learning. Most of the
existing self-supervised representation learning methods typically cluster
samples based on visually dominant features. While this works well for
image-based self-supervision, it often fails for videos, which require
understanding motion rather than focusing on background. Using optical flow as
complementary information to RGB can alleviate this problem. However, we
observe that a naive combination of the two views does not provide meaningful
gains. In this paper, we propose a principled way to combine two views.
Specifically, we propose a novel clustering strategy where we use the initial
cluster assignment of each view as prior to guide the final cluster assignment
of the other view. This idea will enforce similar cluster structures for both
views, and the formed clusters will be semantically abstract and robust to
noisy inputs coming from each individual view. Additionally, we propose a novel
regularization strategy to address the feature collapse problem, which is
common in cluster-based self-supervised learning methods. Our extensive
evaluation shows the effectiveness of our learned representations on downstream
tasks, e.g., video retrieval and action recognition. Specifically, we
outperform the state of the art by 7% on UCF and 4% on HMDB for video
retrieval, and 5% on UCF and 6% on HMDB for video classification
- Abstract(参考訳): クラスタリングは教師なし学習におけるユビキタスなツールです。
既存の自己教師型表現学習手法の多くは、視覚的に支配的な特徴に基づくクラスタサンプルが一般的である。
これは、画像ベースのセルフスーパービジョンではうまく機能するが、背景に焦点を合わせるのではなく、動きを理解する必要があるビデオではうまくいかないことが多い。
光学フローをRGBの補完情報として用いることで、この問題を軽減できる。
しかし,この2つの視点のナイーブな組み合わせは有意義な成果をもたらすものではない。
本稿では,二つの視点を結合する原理的手法を提案する。
具体的には、各ビューの初期クラスタ割り当てを事前に使用して、他のビューの最終クラスタ割り当てをガイドする、新たなクラスタリング戦略を提案する。
このアイデアは、両方のビューに類似したクラスタ構造を強制し、生成されたクラスタは、各ビューから来るセマンティックに抽象的で堅牢でノイズの多い入力になる。
さらに,クラスタベースの自己教師型学習手法に共通する機能崩壊問題に対処する新たな正規化戦略を提案する。
映像検索や行動認識など,下流タスクにおける学習した表現の有効性を広範囲に評価した。
具体的には,ビデオ検索ではUCFで7%,ビデオ検索ではHMDBで4%,動画分類ではHMDBで5%,動画分類ではHMDBで6%の成績を示した。
関連論文リスト
- Deep Structure and Attention Aware Subspace Clustering [29.967881186297582]
本稿では,新しいサブスペースクラスタリング(DSASC)を提案する。
視覚変換器を用いて特徴を抽出し,抽出した特徴を2つの部分,構造特徴,内容特徴に分割する。
我々の手法は最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-25T01:19:47Z) - Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。
提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。
フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文 参考訳(メタデータ) (2023-08-13T18:12:28Z) - CrOC: Cross-View Online Clustering for Dense Visual Representation
Learning [39.12950211289954]
本稿では,オンラインクラスタリング機構(CrOC)を用いて,ビューのセマンティクスを発見し,セグメンテーションするクロスビュー整合性目標を提案する。
手作りの事前処理がなければ、結果の方法はより一般化可能であり、面倒な前処理ステップを必要としない。
各種データセット上での線形および教師なしセグメンテーション伝達タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2023-03-23T13:24:16Z) - Graph Representation Learning via Contrasting Cluster Assignments [57.87743170674533]
GRCCAと呼ばれるクラスタ割り当てを対比して、教師なしグラフ表現モデルを提案する。
クラスタリングアルゴリズムとコントラスト学習を組み合わせることで、局所的およびグローバルな情報を合成的にうまく活用する動機付けがある。
GRCCAは、ほとんどのタスクにおいて強力な競争力を持っている。
論文 参考訳(メタデータ) (2021-12-15T07:28:58Z) - Unsupervised Visual Representation Learning by Online Constrained
K-Means [44.38989920488318]
クラスタ識別は、教師なし表現学習の効果的な前提課題である。
オンラインtextbfConstrained textbfK-mtextbfeans (textbfCoKe) を用いたクラスタリングに基づく新しいプリテキストタスクを提案する。
当社のオンライン割当て方式は,グローバルな最適化に近づくための理論的保証を持っている。
論文 参考訳(メタデータ) (2021-05-24T20:38:32Z) - Temporally-Weighted Hierarchical Clustering for Unsupervised Action
Segmentation [96.67525775629444]
アクションセグメンテーションとは、ビデオにおける意味的に一貫した視覚概念の境界を推測することを指す。
ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。
提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。
論文 参考訳(メタデータ) (2021-03-20T23:30:01Z) - Consensus Clustering With Unsupervised Representation Learning [4.164845768197489]
我々はBootstrap Your Own Latent(BYOL)のクラスタリング能力について検討し、BYOLを使って学習した機能がクラスタリングに最適でないことを観察する。
本稿では,新たなコンセンサスクラスタリングに基づく損失関数を提案するとともに,クラスタリング能力を改善し,類似のクラスタリングに基づく手法より優れたBYOLをエンド・ツー・エンドで学習する。
論文 参考訳(メタデータ) (2020-10-03T01:16:46Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z) - SCAN: Learning to Classify Images without Labels [73.69513783788622]
機能学習とクラスタリングを分離する2段階のアプローチを提唱する。
表現学習からの自己教師型タスクを用いて意味論的意味のある特徴を得る。
我々は、ImageNet上で有望な結果を得、低データ体制下では、いくつかの半教師付き学習方法より優れています。
論文 参考訳(メタデータ) (2020-05-25T18:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。