論文の概要: Contrastive Transformation for Self-supervised Correspondence Learning
- arxiv url: http://arxiv.org/abs/2012.05057v1
- Date: Wed, 9 Dec 2020 14:05:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 02:02:02.747022
- Title: Contrastive Transformation for Self-supervised Correspondence Learning
- Title(参考訳): 自己教師付き対応学習のためのコントラスト変換
- Authors: Ning Wang and Wengang Zhou and Houqiang Li
- Abstract要約: 野生のラベルのない動画を用いて,視覚的対応の自己監督学習について検討する。
本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。
我々のフレームワークは、近年の視覚的タスクにおける自己監督型対応手法よりも優れています。
- 参考スコア(独自算出の注目度): 120.62547360463923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we focus on the self-supervised learning of visual
correspondence using unlabeled videos in the wild. Our method simultaneously
considers intra- and inter-video representation associations for reliable
correspondence estimation. The intra-video learning transforms the image
contents across frames within a single video via the frame pair-wise affinity.
To obtain the discriminative representation for instance-level separation, we
go beyond the intra-video analysis and construct the inter-video affinity to
facilitate the contrastive transformation across different videos. By forcing
the transformation consistency between intra- and inter-video levels, the
fine-grained correspondence associations are well preserved and the
instance-level feature discrimination is effectively reinforced. Our simple
framework outperforms the recent self-supervised correspondence methods on a
range of visual tasks including video object tracking (VOT), video object
segmentation (VOS), pose keypoint tracking, etc. It is worth mentioning that
our method also surpasses the fully-supervised affinity representation (e.g.,
ResNet) and performs competitively against the recent fully-supervised
algorithms designed for the specific tasks (e.g., VOT and VOS).
- Abstract(参考訳): 本稿では,無ラベルビデオを用いた視覚対応の自己教師あり学習に着目した。
本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。
ビデオ内学習は、フレーム対親和性を介して、単一のビデオ内のフレーム間で画像内容を変換する。
インスタンスレベルの分離のための識別表現を得るには、ビデオ内分析を超えて、異なるビデオ間のコントラスト変換を容易にするためにビデオ間親和性を構築する。
動画内レベルと動画間レベルの変換一貫性を強制することにより、微粒化対応関係を良好に保存し、インスタンスレベルの特徴識別を効果的に強化する。
我々の単純なフレームワークは、ビデオオブジェクトトラッキング(VOT)、ビデオオブジェクトセグメンテーション(VOS)、キーポイントトラッキング(Phy Keypoint Track)などの視覚的タスクにおいて、近年の自己監督対応手法よりも優れています。
この手法は完全教師付きアフィニティ表現(例えばresnet)をも上回っており、特定のタスク(例えばvotとvos)用に設計された最近の完全教師付きアルゴリズムと競合する。
関連論文リスト
- Collaboratively Self-supervised Video Representation Learning for Action
Recognition [58.195372471117615]
我々は,行動認識に特化した協調的自己指導型ビデオ表現学習フレームワークを設計する。
提案手法は,UCF101およびHMDB51データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-01-15T10:42:04Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Video alignment using unsupervised learning of local and global features [0.0]
フレームのグローバルな特徴と局所的な特徴を利用した非教師なしアライメント手法を提案する。
特に、人物検出、ポーズ推定、VGGネットワークという3つのマシンビジョンツールを用いて、各ビデオフレームに効果的な機能を導入する。
このアプローチの主な利点は、トレーニングを必要とせず、トレーニングサンプルを収集することなく、新しいタイプのアクションに適用できることです。
論文 参考訳(メタデータ) (2023-04-13T22:20:54Z) - Weakly-supervised Representation Learning for Video Alignment and
Analysis [16.80278496414627]
本稿では,新しい表現学習手法LRPropを紹介する。
提案アルゴリズムは、学習した特徴をよりよくチューニングするために、正規化されたSoftDTW損失も利用する。
我々の新しい表現学習パラダイムは、時間的アライメントタスクにおける技術の現状を一貫して上回ります。
論文 参考訳(メタデータ) (2023-02-08T14:01:01Z) - Locality-Aware Inter-and Intra-Video Reconstruction for Self-Supervised
Correspondence Learning [74.03651142051656]
局所性を考慮した映像間再構成フレームワークLIIRを開発した。
クロスビデオ親和性は、統合されたビデオ間およびビデオ内再構成方式において、追加の負のサンプルとして活用する。
論文 参考訳(メタデータ) (2022-03-27T15:46:42Z) - Modelling Neighbor Relation in Joint Space-Time Graph for Video
Correspondence Learning [53.74240452117145]
本稿では、ラベルなしビデオから信頼できる視覚対応を学習するための自己教師付き手法を提案する。
接続時空間グラフでは,ノードがフレームからサンプリングされたグリッドパッチであり,2種類のエッジによってリンクされる。
学習した表現は、様々な視覚的タスクにおいて最先端の自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2021-09-28T05:40:01Z) - Contrastive Learning of Image Representations with Cross-Video
Cycle-Consistency [13.19476138523546]
ビデオ間関係は視覚表現学習ではほとんど研究されていない。
本稿では,一般画像表現学習のサイクル一貫性を利用して,映像間関係を探索する新しいコントラスト学習手法を提案する。
最先端のコントラスト学習方法よりも大幅に改善されています。
論文 参考訳(メタデータ) (2021-05-13T17:59:11Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Self-supervised Video Representation Learning Using Inter-intra
Contrastive Framework [43.002621928500425]
ビデオから特徴表現を学習するための自己教師付き手法を提案する。
映像表現が重要であるので、負のサンプルを非負のサンプルによって拡張する。
学習した映像表現を用いて,映像検索と映像認識タスクの実験を行う。
論文 参考訳(メタデータ) (2020-08-06T09:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。