論文の概要: Locality-Aware Inter-and Intra-Video Reconstruction for Self-Supervised
Correspondence Learning
- arxiv url: http://arxiv.org/abs/2203.14333v2
- Date: Tue, 29 Mar 2022 04:35:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-02 18:09:00.146923
- Title: Locality-Aware Inter-and Intra-Video Reconstruction for Self-Supervised
Correspondence Learning
- Title(参考訳): 自己教師付き対応学習のための位置認識型映像間再構成
- Authors: Liulei Li, Tianfei Zhou, Wenguan Wang, Lu Yang, Jianwu Li, Yi Yang
- Abstract要約: 局所性を考慮した映像間再構成フレームワークLIIRを開発した。
クロスビデオ親和性は、統合されたビデオ間およびビデオ内再構成方式において、追加の負のサンプルとして活用する。
- 参考スコア(独自算出の注目度): 74.03651142051656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Our target is to learn visual correspondence from unlabeled videos. We
develop LIIR, a locality-aware inter-and intra-video reconstruction framework
that fills in three missing pieces, i.e., instance discrimination, location
awareness, and spatial compactness, of self-supervised correspondence learning
puzzle. First, instead of most existing efforts focusing on intra-video
self-supervision only, we exploit cross video affinities as extra negative
samples within a unified, inter-and intra-video reconstruction scheme. This
enables instance discriminative representation learning by contrasting desired
intra-video pixel association against negative inter-video correspondence.
Second, we merge position information into correspondence matching, and design
a position shifting strategy to remove the side-effect of position encoding
during inter-video affinity computation, making our LIIR location-sensitive.
Third, to make full use of the spatial continuity nature of video data, we
impose a compactness-based constraint on correspondence matching, yielding more
sparse and reliable solutions. The learned representation surpasses
self-supervised state-of-the-arts on label propagation tasks including objects,
semantic parts, and keypoints.
- Abstract(参考訳): 私たちの目標は、ラベルのないビデオから視覚的対応を学ぶことです。
自己教師付き通信学習パズルの3つの欠片(例えば、識別、位置認識、空間コンパクト性)を満たした、局所性認識とビデオ内リコンストラクションフレームワークであるliirを開発した。
まず,映像内自己監督のみに焦点を当てた既存の取り組みではなく,映像間及び映像内再構成方式において,映像間の親和性を付加陰性サンプルとして活用する。
これにより、望まれる映像内関連と負の映像間対応とを対比することにより、インスタンス識別表現学習が可能となる。
第2に,位置情報を対応マッチングにマージし,映像間親和性計算における位置符号化の副作用を除去し,liir位置に敏感な位置シフト戦略を設計する。
第3に,ビデオデータの空間連続性特性をフル活用するために,対応マッチングにコンパクト性に基づく制約を課し,よりスパースで信頼性の高い解を得る。
学習された表現は、オブジェクト、意味部分、キーポイントを含むラベル伝搬タスクの自己教師あり状態を超える。
関連論文リスト
- Hybrid-Learning Video Moment Retrieval across Multi-Domain Labels [34.88705952395676]
ビデオモーメント検索(VMR)とは、与えられたテキストクエリ記述(文)により、未編集の生ビデオ中の視覚的時間モーメントを検索することである。
本稿では,知識伝達による問題解決のために,ハイブリッド学習ビデオモーメント検索という新しい手法を提案する。
本研究の目的は,弱層対象領域におけるモデル学習を改善するために,両領域間の共通知識を探索することである。
論文 参考訳(メタデータ) (2024-06-03T21:14:53Z) - Unified Mask Embedding and Correspondence Learning for Self-Supervised
Video Segmentation [76.40565872257709]
我々は、局所的な識別的特徴学習のためのフレーム間密度対応を同時にモデル化する統合フレームワークを開発する。
ラベルなしビデオから直接マスク誘導シーケンシャルセグメンテーションを実行することができる。
我々のアルゴリズムは、2つの標準ベンチマーク(DAVIS17とYouTube-VOS)に最先端をセットする。
論文 参考訳(メタデータ) (2023-03-17T16:23:36Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Look at What I'm Doing: Self-Supervised Spatial Grounding of Narrations
in Instructional Videos [78.34818195786846]
ビデオにおけるナレーション相互作用を空間的局所化するタスクについて紹介する。
提案手法の鍵となるのは,映像の大規模コーパスにおける自己スーパービジョンとの相互作用の空間的ローカライズを学習する能力である。
学習中のコントラスト損失を効果的に最適化できる多層マルチモーダルアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T14:45:13Z) - Learning by Aligning Videos in Time [10.075645944474287]
本稿では,時間的映像アライメントを前提課題として,映像表現を学習するための自己教師型アプローチを提案する。
我々は、エンコーダネットワークをトレーニングするための監視信号として使用できる、時間的アライメント損失と時間的正規化項の新たな組み合わせを利用する。
論文 参考訳(メタデータ) (2021-03-31T17:55:52Z) - Contrastive Transformation for Self-supervised Correspondence Learning [120.62547360463923]
野生のラベルのない動画を用いて,視覚的対応の自己監督学習について検討する。
本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。
我々のフレームワークは、近年の視覚的タスクにおける自己監督型対応手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-09T14:05:06Z) - Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。
最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。
ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文 参考訳(メタデータ) (2020-08-31T08:31:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。