論文の概要: Rethinking Self-supervised Correspondence Learning: A Video Frame-level
Similarity Perspective
- arxiv url: http://arxiv.org/abs/2103.17263v1
- Date: Wed, 31 Mar 2021 17:56:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-01 14:28:33.354340
- Title: Rethinking Self-supervised Correspondence Learning: A Video Frame-level
Similarity Perspective
- Title(参考訳): 自己教師付き対応学習の再考 : 映像フレームレベルの類似性の観点から
- Authors: Jiarui Xu, Xiaolong Wang
- Abstract要約: ビデオフレームレベルの類似度(VFS)学習を用いた対応学習を提案する。
我々の研究は、画像レベルのコントラスト学習と視覚認識のための類似学習の成功に触発されている。
VFSは、OTBビジュアルオブジェクトトラッキングとDAVISビデオオブジェクトセグメンテーションの両方において、最先端の自己監視アプローチを超える驚くべき結果を示しています。
- 参考スコア(独自算出の注目度): 13.90183404059193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning a good representation for space-time correspondence is the key for
various computer vision tasks, including tracking object bounding boxes and
performing video object pixel segmentation. To learn generalizable
representation for correspondence in large-scale, a variety of self-supervised
pretext tasks are proposed to explicitly perform object-level or patch-level
similarity learning. Instead of following the previous literature, we propose
to learn correspondence using Video Frame-level Similarity (VFS) learning, i.e,
simply learning from comparing video frames. Our work is inspired by the recent
success in image-level contrastive learning and similarity learning for visual
recognition. Our hypothesis is that if the representation is good for
recognition, it requires the convolutional features to find correspondence
between similar objects or parts. Our experiments show surprising results that
VFS surpasses state-of-the-art self-supervised approaches for both OTB visual
object tracking and DAVIS video object segmentation. We perform detailed
analysis on what matters in VFS and reveals new properties on image and frame
level similarity learning. Project page is available at
https://jerryxu.net/VFS.
- Abstract(参考訳): 時空間対応のための良い表現を学ぶことは、オブジェクトバウンディングボックスの追跡やビデオオブジェクトのピクセルセグメンテーションの実行など、様々なコンピュータビジョンタスクの鍵となる。
大規模に対応するための一般化可能な表現を学習するために、オブジェクトレベルまたはパッチレベルの類似性学習を明示的に行うために、様々な自己教師付きプレテキストタスクを提案する。
従来の文献に従わず、ビデオフレームレベルの類似性(vfs)学習、すなわち単にビデオフレームの比較から学習することを用いて対応を学習することを提案する。
我々の研究は、画像レベルのコントラスト学習と視覚認識のための類似学習の成功に触発されている。
我々の仮説は、表現が認識に適している場合、類似のオブジェクトや部品間の対応を見つけるために畳み込みの特徴が必要であるというものである。
以上の結果から,VFS は OTB ビジュアルオブジェクトトラッキングと DAVIS ビデオオブジェクトセグメンテーションの両方に対して,最先端の自己監督アプローチを超越していることがわかった。
VFSで何が重要かを詳細に分析し、画像およびフレームレベルの類似性学習における新しい特性を明らかにする。
プロジェクトページはhttps://jerryxu.net/vfs。
関連論文リスト
- VrdONE: One-stage Video Visual Relation Detection [30.983521962897477]
Video Visual Relation Detection (VidVRD)は、ビデオの時間と空間におけるエンティティの理解に焦点を当てている。
VidVRDの従来の手法は、その複雑さに悩まされ、通常、タスクを2つの部分に分割する。
VidVRDのワンステージモデルであるVrdONEを提案する。
論文 参考訳(メタデータ) (2024-08-18T08:38:20Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Pixel-level Correspondence for Self-Supervised Learning from Video [56.24439897867531]
ピクセルレベルの対応 (PiCo) はビデオから高密度なコントラスト学習を行う方法である。
標準的なベンチマークでPiCoを検証し、複数の高密度予測タスクで自己教師付きベースラインを上回ります。
論文 参考訳(メタデータ) (2022-07-08T12:50:13Z) - Reading-strategy Inspired Visual Representation Learning for
Text-to-Video Retrieval [41.420760047617506]
クロスモーダル表現学習は、ビデオと文の両方を、意味的類似性のための共通空間に計画する。
人間の読み方から着想を得た映像表現学習(RIVRL)を提案する。
我々のモデル RIVRL は TGIF と VATEX の新たな最先端を実現する。
論文 参考訳(メタデータ) (2022-01-23T03:38:37Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - Contrastive Learning of Image Representations with Cross-Video
Cycle-Consistency [13.19476138523546]
ビデオ間関係は視覚表現学習ではほとんど研究されていない。
本稿では,一般画像表現学習のサイクル一貫性を利用して,映像間関係を探索する新しいコントラスト学習手法を提案する。
最先端のコントラスト学習方法よりも大幅に改善されています。
論文 参考訳(メタデータ) (2021-05-13T17:59:11Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Contrastive Transformation for Self-supervised Correspondence Learning [120.62547360463923]
野生のラベルのない動画を用いて,視覚的対応の自己監督学習について検討する。
本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。
我々のフレームワークは、近年の視覚的タスクにおける自己監督型対応手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-09T14:05:06Z) - CompFeat: Comprehensive Feature Aggregation for Video Instance
Segmentation [67.17625278621134]
ビデオインスタンスのセグメンテーションは、特定のビデオのそれぞれのオブジェクトを検出し、セグメンテーションし、追跡する必要がある複雑なタスクです。
従来のアプローチは、オブジェクトの検出、セグメンテーション、追跡にのみシングルフレーム機能を使用します。
本稿では,時間的および空間的コンテキスト情報を用いて,フレームレベルとオブジェクトレベルでの機能を洗練する新しい包括的特徴集約アプローチ(compfeat)を提案する。
論文 参考訳(メタデータ) (2020-12-07T00:31:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。