論文の概要: Online Deep Clustering with Video Track Consistency
- arxiv url: http://arxiv.org/abs/2206.03086v1
- Date: Tue, 7 Jun 2022 08:11:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-09 02:27:27.691479
- Title: Online Deep Clustering with Video Track Consistency
- Title(参考訳): ビデオトラック一貫性を備えたオンラインディープクラスタリング
- Authors: Alessandra Alfani, Federico Becattini, Lorenzo Seidenari, Alberto Del
Bimbo
- Abstract要約: ビデオオブジェクトトラックから視覚的特徴を学習するための教師なしクラスタリングに基づく手法を提案する。
教師なしのクラス非依存でノイズの多いトラックジェネレータを利用すれば、コストと正確なトラックアノテーションに依存するよりも精度が向上することを示す。
- 参考スコア(独自算出の注目度): 85.8868194550978
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Several unsupervised and self-supervised approaches have been developed in
recent years to learn visual features from large-scale unlabeled datasets.
Their main drawback however is that these methods are hardly able to recognize
visual features of the same object if it is simply rotated or the perspective
of the camera changes. To overcome this limitation and at the same time exploit
a useful source of supervision, we take into account video object tracks.
Following the intuition that two patches in a track should have similar visual
representations in a learned feature space, we adopt an unsupervised
clustering-based approach and constrain such representations to be labeled as
the same category since they likely belong to the same object or object part.
Experimental results on two downstream tasks on different datasets demonstrate
the effectiveness of our Online Deep Clustering with Video Track Consistency
(ODCT) approach compared to prior work, which did not leverage temporal
information. In addition we show that exploiting an unsupervised
class-agnostic, yet noisy, track generator yields to better accuracy compared
to relying on costly and precise track annotations.
- Abstract(参考訳): 近年、大規模なラベルなしデータセットから視覚的特徴を学ぶために、教師なしおよび自己監督的なアプローチが開発されている。
しかし、これらの手法の主な欠点は、単に回転したり、カメラの視点が変化しても、同じ物体の視覚的特徴を認識できないことである。
この制限を克服し、同時に有効な監視源を活用するために、ビデオオブジェクトのトラックを考慮に入れます。
トラック内の2つのパッチは学習された特徴空間に類似した視覚的表現を持つべきであるという直感に続いて、教師なしクラスタリングに基づくアプローチを採用し、そのような表現は同一のオブジェクトやオブジェクトの一部に属する可能性が高いため、同じカテゴリとしてラベル付けされるように制約する。
異なるデータセット上の2つのダウンストリームタスクに対する実験結果は、時間的情報を利用していない以前の作業と比較して、オンラインディープクラスタリングとビデオトラック一貫性(ODCT)アプローチの有効性を示した。
さらに,教師なしのクラス非依存なトラックジェネレータを利用すると,コストのかかる正確なトラックアノテーションに依存するよりも精度が向上することを示す。
関連論文リスト
- QDTrack: Quasi-Dense Similarity Learning for Appearance-Only Multiple
Object Tracking [73.52284039530261]
本稿では,コントラスト学習のために,画像上に数百のオブジェクト領域を密集した擬似Dense類似性学習を提案する。
得られた特徴空間は、オブジェクトアソシエーションの推論時間において、単純な近接探索を許容する。
我々の類似性学習方式は,ビデオデータに限らず,静的入力でも有効なインスタンス類似性を学ぶことができることを示す。
論文 参考訳(メタデータ) (2022-10-12T15:47:36Z) - Semi-TCL: Semi-Supervised Track Contrastive Representation Learning [40.31083437957288]
我々は、外観埋め込みを学習するために、新しいインスタンス・ツー・トラックマッチングの目的を設計する。
候補検出とトラッカーに永続化されたトラックの埋め込みを比較する。
我々は,この学習目標を,構成的損失の精神に倣って統一的な形で実施する。
論文 参考訳(メタデータ) (2021-07-06T05:23:30Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Learning to Track Instances without Video Annotations [85.9865889886669]
本稿では,ラベル付き画像データセットとラベルなしビデオシーケンスのみを用いたインスタンス追跡ネットワークを学習する,新しい半教師付きフレームワークを提案する。
画像のみを訓練しても,学習した特徴表現は出現の変動にロバストであることが判明した。
さらに、このモジュールを単一ステージのインスタンスセグメンテーションとポーズ推定フレームワークに統合します。
論文 参考訳(メタデータ) (2021-04-01T06:47:41Z) - Learning to Track with Object Permanence [61.36492084090744]
共同物体の検出と追跡のためのエンドツーエンドのトレーニング可能なアプローチを紹介します。
私たちのモデルは、合成データと実データで共同トレーニングされ、KITTIおよびMOT17データセットの最先端を上回ります。
論文 参考訳(メタデータ) (2021-03-26T04:43:04Z) - Self-supervised Video Object Segmentation [76.83567326586162]
本研究の目的は、半教師付きビデオオブジェクトセグメンテーション(高密度トラッキング)の解決を目的とした自己教師付き表現学習である。
i) 従来の自己教師型アプローチを改善すること、(ii) オンライン適応モジュールによる自己教師型アプローチの強化により、空間的時間的不連続性によるトラッカーのドリフトを緩和すること、(iv) DAVIS-2017とYouTubeの自己教師型アプローチで最先端の結果を示すこと、などが提案されている。
論文 参考訳(メタデータ) (2020-06-22T17:55:59Z) - Unsupervised Multiple Person Tracking using AutoEncoder-Based Lifted
Multicuts [11.72025865314187]
最小限の視覚的特徴とリフトマルチカットに基づく教師なし多重物体追跡手法を提案する。
提案したアノテーションを使わずにトレーニングされているにもかかわらず,我々のモデルは,歩行者追跡のための挑戦的なMOTベンチマークにおいて,競争力のある結果をもたらすことを示した。
論文 参考訳(メタデータ) (2020-02-04T09:42:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。