論文の概要: SeCo: Exploring Sequence Supervision for Unsupervised Representation
Learning
- arxiv url: http://arxiv.org/abs/2008.00975v2
- Date: Wed, 27 Jan 2021 17:25:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 06:41:26.535049
- Title: SeCo: Exploring Sequence Supervision for Unsupervised Representation
Learning
- Title(参考訳): SeCo: 教師なし表現学習のためのシーケンススーパービジョン
- Authors: Ting Yao and Yiheng Zhang and Zhaofan Qiu and Yingwei Pan and Tao Mei
- Abstract要約: 本稿では,空間的,シーケンシャル,時間的観点から,シーケンスの基本的および汎用的な監視について検討する。
私たちはContrastive Learning(SeCo)という特定の形式を導き出します。
SeCoは、アクション認識、未トリムアクティビティ認識、オブジェクト追跡に関する線形プロトコルにおいて、優れた結果を示す。
- 参考スコア(独自算出の注目度): 114.58986229852489
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A steady momentum of innovations and breakthroughs has convincingly pushed
the limits of unsupervised image representation learning. Compared to static 2D
images, video has one more dimension (time). The inherent supervision existing
in such sequential structure offers a fertile ground for building unsupervised
learning models. In this paper, we compose a trilogy of exploring the basic and
generic supervision in the sequence from spatial, spatiotemporal and sequential
perspectives. We materialize the supervisory signals through determining
whether a pair of samples is from one frame or from one video, and whether a
triplet of samples is in the correct temporal order. We uniquely regard the
signals as the foundation in contrastive learning and derive a particular form
named Sequence Contrastive Learning (SeCo). SeCo shows superior results under
the linear protocol on action recognition (Kinetics), untrimmed activity
recognition (ActivityNet) and object tracking (OTB-100). More remarkably, SeCo
demonstrates considerable improvements over recent unsupervised pre-training
techniques, and leads the accuracy by 2.96% and 6.47% against fully-supervised
ImageNet pre-training in action recognition task on UCF101 and HMDB51,
respectively. Source code is available at
\url{https://github.com/YihengZhang-CV/SeCo-Sequence-Contrastive-Learning}.
- Abstract(参考訳): イノベーションとブレークスルーの安定した勢いは、教師なしの画像表現学習の限界を押し上げてきた。
静的な2D画像と比較すると、ビデオは1つの次元(時間)を持つ。
このようなシーケンシャルな構造に存在する固有の監督は、教師なし学習モデルを構築するための肥大した基盤を提供する。
本稿では,空間的,時空間的,シーケンシャルな視点から,シーケンスの基本的および汎用的な監視を探索する三部作を構成する。
一対のサンプルが一つのフレームから、一対の動画から、また三重項のサンプルが正しい時間順にあるかどうかを判定することで、監視信号を具現化する。
コントラスト学習の基礎を信号とみなし,SeCo(Sequence Contrastive Learning)という特定の形式を導出する。
SeCoは、アクション認識(Kinetics)、未トリムアクティビティ認識(ActivityNet)、オブジェクト追跡(OTB-100)の線形プロトコルにおいて、優れた結果を示す。
さらに驚くべきことに、SeCoは最近の教師なし事前トレーニング技術よりも大幅に改善されており、UCF101とHMDB51のアクション認識タスクにおいて、フル教師付きイメージネットに対して精度が2.96%と6.47%向上している。
ソースコードは \url{https://github.com/yihengzhang-cv/seco-sequence-contrastive-learning} で入手できる。
関連論文リスト
- 3D Unsupervised Learning by Distilling 2D Open-Vocabulary Segmentation Models for Autonomous Driving [17.42913935045091]
2次元開語彙セグメンテーションモデルを用いた新しい3次元教師なしフレームワークUOVを提案する。
最初の段階では、2次元オープン語彙モデルの高品質なテキストと画像の特徴を革新的に統合する。
第2段階では、点雲と画像の間の空間マッピングを利用して擬似ラベルを生成する。
論文 参考訳(メタデータ) (2024-05-24T07:18:09Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - Self-Supervised Representation Learning from Temporal Ordering of
Automated Driving Sequences [49.91741677556553]
本研究では、認識タスクのための地域レベルの特徴表現を事前学習するための時間順述前文タスクであるTempOを提案する。
我々は各フレームを、オブジェクト検出やトラッキングシステムにとって自然な表現である、未順序な特徴ベクトルのセットで埋め込む。
BDD100K、nu Images、MOT17データセットの大規模な評価は、私たちのTempO事前学習アプローチがシングルフレームの自己教師型学習方法よりも優れていることを示している。
論文 参考訳(メタデータ) (2023-02-17T18:18:27Z) - Temporal-Viewpoint Transportation Plan for Skeletal Few-shot Action
Recognition [38.27785891922479]
Joint tEmporalとcAmera viewpoiNt alIgnmEntによる3Dスケルトンに基づく動作認識のためのFew-shot Learning Pipeline
論文 参考訳(メタデータ) (2022-10-30T11:46:38Z) - Hierarchically Self-Supervised Transformer for Human Skeleton
Representation Learning [45.13060970066485]
階層型トランスフォーマーベーススケルトンシーケンスエンコーダ(Hi-TRS)に組み込まれた自己教師型階層型事前学習方式を提案する。
教師付き評価プロトコルと半教師付き評価プロトコルの両方で,本手法は最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-07-20T04:21:05Z) - On Triangulation as a Form of Self-Supervision for 3D Human Pose
Estimation [57.766049538913926]
ラベル付きデータが豊富である場合, 単一画像からの3次元ポーズ推定に対する改良されたアプローチは, 極めて効果的である。
最近の注目の多くは、セミと(あるいは)弱い教師付き学習に移行している。
本稿では,多視点の幾何学的制約を,識別可能な三角測量を用いて課し,ラベルがない場合の自己監督の形式として用いることを提案する。
論文 参考訳(メタデータ) (2022-03-29T19:11:54Z) - A Large-Scale Study on Unsupervised Spatiotemporal Representation
Learning [60.720251418816815]
本稿では,ビデオからの教師なし表現学習に関する大規模研究を行う。
目的は同じビデオにおける時間的特徴を奨励する。
長時間持続を奨励することは,60秒であっても有効であることがわかった。
論文 参考訳(メタデータ) (2021-04-29T17:59:53Z) - Self-supervised Video Object Segmentation [76.83567326586162]
本研究の目的は、半教師付きビデオオブジェクトセグメンテーション(高密度トラッキング)の解決を目的とした自己教師付き表現学習である。
i) 従来の自己教師型アプローチを改善すること、(ii) オンライン適応モジュールによる自己教師型アプローチの強化により、空間的時間的不連続性によるトラッカーのドリフトを緩和すること、(iv) DAVIS-2017とYouTubeの自己教師型アプローチで最先端の結果を示すこと、などが提案されている。
論文 参考訳(メタデータ) (2020-06-22T17:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。