論文の概要: Labelling unlabelled videos from scratch with multi-modal
self-supervision
- arxiv url: http://arxiv.org/abs/2006.13662v3
- Date: Sun, 28 Feb 2021 14:45:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 09:41:50.672480
- Title: Labelling unlabelled videos from scratch with multi-modal
self-supervision
- Title(参考訳): マルチモーダル・セルフスーパービジョンで動画をスクラッチから切り離す
- Authors: Yuki M. Asano, Mandela Patrick, Christian Rupprecht, Andrea Vedaldi
- Abstract要約: ビデオデータセットの教師なしラベリングは、強力な機能エンコーダから解放されない。
人間のアノテーションを使わずにビデオデータセットの擬似ラベリングを可能にする新しいクラスタリング手法を提案する。
広範囲な分析により、結果として得られたクラスタは、真理の人間ラベルと高いセマンティックオーバーラップがあることが示されている。
- 参考スコア(独自算出の注目度): 82.60652426371936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A large part of the current success of deep learning lies in the
effectiveness of data -- more precisely: labelled data. Yet, labelling a
dataset with human annotation continues to carry high costs, especially for
videos. While in the image domain, recent methods have allowed to generate
meaningful (pseudo-) labels for unlabelled datasets without supervision, this
development is missing for the video domain where learning feature
representations is the current focus. In this work, we a) show that
unsupervised labelling of a video dataset does not come for free from strong
feature encoders and b) propose a novel clustering method that allows
pseudo-labelling of a video dataset without any human annotations, by
leveraging the natural correspondence between the audio and visual modalities.
An extensive analysis shows that the resulting clusters have high semantic
overlap to ground truth human labels. We further introduce the first
benchmarking results on unsupervised labelling of common video datasets
Kinetics, Kinetics-Sound, VGG-Sound and AVE.
- Abstract(参考訳): 現在のディープラーニングの成功の大部分は、データの有効性にある -- もっと正確に言えば、ラベル付きデータです。
しかし、人間のアノテーションによるデータセットのラベル付けは、特にビデオのコストが高い。
画像領域では、最近の手法ではラベルなしデータセットに対して有意義な(pseudo-)ラベルを生成できるが、学習機能表現が現在注目されているビデオ領域では、この開発が欠落している。
この作品では、
a) ビデオデータセットの教師なしラベリングが強機能エンコーダから解放されないことを示すこと。
b)音声と視覚のモダリティの自然な対応を利用して,人間のアノテーションを使わずにビデオデータセットを擬似ラベリングできる新しいクラスタリング手法を提案する。
広範囲な分析により、結果として得られたクラスタは、真理の人間ラベルと高いセマンティックオーバーラップを持つことが示された。
さらに、一般的なビデオデータセットであるKinetics、Kinetics-Sound、VGG-Sound、AVEの教師なしラベル付けに関する最初のベンチマーク結果を紹介する。
関連論文リスト
- Query-based Video Summarization with Pseudo Label Supervision [19.229722872058055]
手動でラベル付けされたクエリベースのビデオ要約のための既存のデータセットは、コストが高くて小さい。
セルフスーパービジョンは、プリテキストタスクを使用して、擬似ラベルで余分なデータを取得する方法を定義することで、データ空間の問題に対処することができる。
実験結果から,提案した映像要約アルゴリズムは最先端の性能を実現することがわかった。
論文 参考訳(メタデータ) (2023-07-04T22:28:17Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - Large-Scale Unsupervised Person Re-Identification with Contrastive
Learning [17.04597303816259]
ほとんどの既存の非監視およびドメイン適応ReIDメソッドは、実験で公開データセットのみを使用します。
コントラスト学習による大規模自己監視画像分類の最近の進歩に触発され, 大規模非ラベル監視映像だけでReID表現を学習することを提案する。
論文 参考訳(メタデータ) (2021-05-17T14:55:08Z) - Cleaning Label Noise with Clusters for Minimally Supervised Anomaly
Detection [26.062659852373653]
ビデオレベルラベルのみを用いてトレーニングした弱い教師付き異常検出法を定式化する。
提案手法は UCF-crime と ShanghaiTech のデータセットでそれぞれ78.27% と84.16% のフレームレベル AUC が得られる。
論文 参考訳(メタデータ) (2021-04-30T06:03:24Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z) - Reducing the Annotation Effort for Video Object Segmentation Datasets [50.893073670389164]
ピクセルマスクでフレームを密にラベル付けしても 大規模なデータセットにはスケールしない
我々は、より安価なバウンディングボックスアノテーションからピクセルレベルで擬似ラベルを自動生成するために、深層畳み込みネットワークを使用します。
我々は新しいTAO-VOSベンチマークを取得し、www.vision.rwth-aachen.de/page/taovosで公開している。
論文 参考訳(メタデータ) (2020-11-02T17:34:45Z) - Semantics through Time: Semi-supervised Segmentation of Aerial Videos
with Iterative Label Propagation [16.478668565965243]
本稿では,SegPropの導入によって自動アノテーションへの重要な一歩を踏み出す。
SegPropは、空間と時間におけるスペクトルクラスタリングに直接接続する、新しい反復フローベースの手法である。
Ruralscapesは、50フレーム毎に高解像度(4K)イメージと手動で注釈付けされた高密度ラベルを備えた、新しいデータセットである。
われわれの小説『SegProp』は、残っていない98%のフレームを90%を超える精度で自動的に注釈付けする。
論文 参考訳(メタデータ) (2020-10-02T15:15:50Z) - Adversarial Knowledge Transfer from Unlabeled Data [62.97253639100014]
本稿では,インターネット規模の未ラベルデータから知識を伝達し,分類器の性能を向上させるための新しいAdversarial Knowledge Transferフレームワークを提案する。
我々の手法の重要な新しい側面は、ラベル付けされていないソースデータは、ラベル付けされたターゲットデータと異なるクラスであることができ、個別のプリテキストタスクを定義する必要がないことである。
論文 参考訳(メタデータ) (2020-08-13T08:04:27Z) - Evolving Losses for Unsupervised Video Representation Learning [91.2683362199263]
大規模未ラベル映像データから映像表現を学習する新しい手法を提案する。
提案した教師なし表現学習では,単一のRGBネットワークが実現し,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-02-26T16:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。