論文の概要: Contextualized Spatio-Temporal Contrastive Learning with
Self-Supervision
- arxiv url: http://arxiv.org/abs/2112.05181v1
- Date: Thu, 9 Dec 2021 19:13:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 03:58:09.914003
- Title: Contextualized Spatio-Temporal Contrastive Learning with
Self-Supervision
- Title(参考訳): 自己スーパービジョンを用いた文脈付き時空間コントラスト学習
- Authors: Liangzhe Yuan, Rui Qian, Yin Cui, Boqing Gong, Florian Schroff,
Ming-Hsuan Yang, Hartwig Adam, Ting Liu
- Abstract要約: 時間的にきめ細かな表現を効果的に学習するためのConST-CLフレームワークを提案する。
まず、コンテキスト特徴によって導かれるインスタンス表現をあるビューから別のビューに変換することを学習するモデルを必要とする地域ベースの自己教師型タスクを設計する。
次に、全体的および局所的な表現の同時学習を効果的に調整するシンプルな設計を導入する。
- 参考スコア(独自算出の注目度): 106.77639982059014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A modern self-supervised learning algorithm typically enforces persistency of
the representations of an instance across views. While being very effective on
learning holistic image and video representations, such an approach becomes
sub-optimal for learning spatio-temporally fine-grained features in videos,
where scenes and instances evolve through space and time. In this paper, we
present the Contextualized Spatio-Temporal Contrastive Learning (ConST-CL)
framework to effectively learn spatio-temporally fine-grained representations
using self-supervision. We first design a region-based self-supervised pretext
task which requires the model to learn to transform instance representations
from one view to another guided by context features. Further, we introduce a
simple network design that effectively reconciles the simultaneous learning
process of both holistic and local representations. We evaluate our learned
representations on a variety of downstream tasks and ConST-CL achieves
state-of-the-art results on four datasets. For spatio-temporal action
localization, ConST-CL achieves 39.4% mAP with ground-truth boxes and 30.5% mAP
with detected boxes on the AVA-Kinetics validation set. For object tracking,
ConST-CL achieves 78.1% precision and 55.2% success scores on OTB2015.
Furthermore, ConST-CL achieves 94.8% and 71.9% top-1 fine-tuning accuracy on
video action recognition datasets, UCF101 and HMDB51 respectively. We plan to
release our code and models to the public.
- Abstract(参考訳): 現代の自己教師付き学習アルゴリズムは、通常、ビューをまたいでインスタンスの表現の持続性を強制する。
全体像とビデオ表現の学習に非常に効果的であるが、このようなアプローチは空間と時間を通してシーンやインスタンスが進化するビデオの時空間的特徴を学習するのに最適である。
本稿では,コンテキスト化された時空間コントラスト学習(const-cl)フレームワークを提案する。
まず、コンテキスト特徴によって導かれるインスタンス表現をあるビューから別のビューに変換することを学習するモデルを必要とする地域ベースの自己教師型プリテキストタスクを設計する。
さらに,完全表現と局所表現の同時学習プロセスを効果的に両立させるシンプルなネットワーク設計を提案する。
さまざまな下流タスクで学習した表現を評価し,ConST-CLは4つのデータセットで最先端の結果を得る。
時空間の局所化のために、ConST-CLは39.4%のmAPと30.5%のmAPと、検出されたAVA-キネティクス検証セット上のボックスを達成している。
オブジェクト追跡において、ConST-CLは78.1%の精度と55.2%の成功率を達成した。
さらに、ConST-CLは、ビデオアクション認識データセット、UCF101、HMDB51において、94.8%、71.9%の微調整精度を達成した。
私たちはコードとモデルを一般公開する予定です。
関連論文リスト
- Debiasing, calibrating, and improving Semi-supervised Learning
performance via simple Ensemble Projector [0.0]
半教師付き学習(EPASS)のための簡単な手法であるEnsemble Projectorsを提案する。
EPASSは標準的な方法とは異なり、複数のプロジェクタからのアンサンブル埋め込みをメモリバンクに格納する。
EPASSは、一般化を改善し、特徴表現を強化し、パフォーマンスを向上する。
論文 参考訳(メタデータ) (2023-10-24T12:11:19Z) - OCTScenes: A Versatile Real-World Dataset of Tabletop Scenes for
Object-Centric Learning [41.09407455527254]
OCTScenes と呼ばれるオブジェクト中心学習のためのテーブルトップシーンの多用途実世界のデータセットを提案する。
OCTScenesには5000のテーブルトップシーンがあり、合計で15のオブジェクトがある。
オブジェクト中心学習手法の比較、評価、分析のためのベンチマークとして、慎重に設計されている。
論文 参考訳(メタデータ) (2023-06-16T08:26:57Z) - Self-Supervised Video Representation Learning via Latent Time Navigation [12.721647696921865]
自己教師付きビデオ表現学習は、1つのビデオの異なる時間セグメント間の類似性を最大化することを目的としている。
微粒な動きを捉えるために、LTN(Latent Time Navigation)を提案する。
実験により,LTNによる映像表現の学習は,動作分類の性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2023-05-10T20:06:17Z) - Open-VCLIP: Transforming CLIP to an Open-vocabulary Video Model via
Interpolated Weight Optimization [82.75718846187685]
我々は、CLIPを強力なゼロショットビデオ分類器に変換する、シンプルで効果的なアプローチであるOpen-VCLIPを紹介する。
我々は,Open-VCLIPのトレーニングが,履歴データゼロの連続学習と等価であることを示す。
特に、UCF、HMDB、Kinetics-600データセットで87.9%、58.3%、81.1%のゼロショット精度を達成した。
論文 参考訳(メタデータ) (2023-02-01T17:44:17Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - MST: Masked Self-Supervised Transformer for Visual Representation [52.099722121603506]
Transformerは自然言語処理(NLP)における自己教師型事前学習に広く利用されている。
我々は、画像の局所的コンテキストを明示的にキャプチャできる、MSTと呼ばれる新しいMasked Self-supervised Transformerアプローチを提案する。
MSTは、線形評価による300エポック事前トレーニングのみを使用して、DeiT-Sで76.9%のTop-1精度を達成する。
論文 参考訳(メタデータ) (2021-06-10T11:05:18Z) - Pairwise Similarity Knowledge Transfer for Weakly Supervised Object
Localization [53.99850033746663]
弱教師付き画像ラベルを持つ対象クラスにおける局所化モデル学習の問題点について検討する。
本研究では,対象関数のみの学習は知識伝達の弱い形態であると主張する。
COCOおよびILSVRC 2013検出データセットの実験では、ペアワイズ類似度関数を含むことにより、ローカライズモデルの性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2020-03-18T17:53:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。