Fugu-MT 論文翻訳(概要): Locality-Aware Inter-and Intra-Video Reconstruction for Self-Supervised Correspondence Learning

論文の概要: Locality-Aware Inter-and Intra-Video Reconstruction for Self-Supervised Correspondence Learning

arxiv url: http://arxiv.org/abs/2203.14333v2
Date: Tue, 29 Mar 2022 04:35:54 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-02 18:09:00.146923
Title: Locality-Aware Inter-and Intra-Video Reconstruction for Self-Supervised Correspondence Learning
Title（参考訳）: 自己教師付き対応学習のための位置認識型映像間再構成
Authors: Liulei Li, Tianfei Zhou, Wenguan Wang, Lu Yang, Jianwu Li, Yi Yang
Abstract要約: 局所性を考慮した映像間再構成フレームワークLIIRを開発した。クロスビデオ親和性は、統合されたビデオ間およびビデオ内再構成方式において、追加の負のサンプルとして活用する。
参考スコア（独自算出の注目度）: 74.03651142051656
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Our target is to learn visual correspondence from unlabeled videos. We develop LIIR, a locality-aware inter-and intra-video reconstruction framework that fills in three missing pieces, i.e., instance discrimination, location awareness, and spatial compactness, of self-supervised correspondence learning puzzle. First, instead of most existing efforts focusing on intra-video self-supervision only, we exploit cross video affinities as extra negative samples within a unified, inter-and intra-video reconstruction scheme. This enables instance discriminative representation learning by contrasting desired intra-video pixel association against negative inter-video correspondence. Second, we merge position information into correspondence matching, and design a position shifting strategy to remove the side-effect of position encoding during inter-video affinity computation, making our LIIR location-sensitive. Third, to make full use of the spatial continuity nature of video data, we impose a compactness-based constraint on correspondence matching, yielding more sparse and reliable solutions. The learned representation surpasses self-supervised state-of-the-arts on label propagation tasks including objects, semantic parts, and keypoints.
Abstract（参考訳）: 私たちの目標は、ラベルのないビデオから視覚的対応を学ぶことです。自己教師付き通信学習パズルの3つの欠片(例えば、識別、位置認識、空間コンパクト性)を満たした、局所性認識とビデオ内リコンストラクションフレームワークであるliirを開発した。まず,映像内自己監督のみに焦点を当てた既存の取り組みではなく,映像間及び映像内再構成方式において,映像間の親和性を付加陰性サンプルとして活用する。これにより、望まれる映像内関連と負の映像間対応とを対比することにより、インスタンス識別表現学習が可能となる。第2に,位置情報を対応マッチングにマージし,映像間親和性計算における位置符号化の副作用を除去し,liir位置に敏感な位置シフト戦略を設計する。第3に,ビデオデータの空間連続性特性をフル活用するために,対応マッチングにコンパクト性に基づく制約を課し,よりスパースで信頼性の高い解を得る。学習された表現は、オブジェクト、意味部分、キーポイントを含むラベル伝搬タスクの自己教師あり状態を超える。

関連論文リスト

Hybrid-Learning Video Moment Retrieval across Multi-Domain Labels [34.88705952395676]
ビデオモーメント検索(VMR)とは、与えられたテキストクエリ記述(文)により、未編集の生ビデオ中の視覚的時間モーメントを検索することである。本稿では,知識伝達による問題解決のために,ハイブリッド学習ビデオモーメント検索という新しい手法を提案する。本研究の目的は,弱層対象領域におけるモデル学習を改善するために,両領域間の共通知識を探索することである。
論文参考訳（メタデータ） (2024-06-03T21:14:53Z)
Unified Mask Embedding and Correspondence Learning for Self-Supervised Video Segmentation [76.40565872257709]
我々は、局所的な識別的特徴学習のためのフレーム間密度対応を同時にモデル化する統合フレームワークを開発する。ラベルなしビデオから直接マスク誘導シーケンシャルセグメンテーションを実行することができる。我々のアルゴリズムは、2つの標準ベンチマーク(DAVIS17とYouTube-VOS)に最先端をセットする。
論文参考訳（メタデータ） (2023-03-17T16:23:36Z)
Video Salient Object Detection via Contrastive Features and Attention Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文参考訳（メタデータ） (2021-11-03T17:40:32Z)
Look at What I'm Doing: Self-Supervised Spatial Grounding of Narrations in Instructional Videos [78.34818195786846]
ビデオにおけるナレーション相互作用を空間的局所化するタスクについて紹介する。提案手法の鍵となるのは,映像の大規模コーパスにおける自己スーパービジョンとの相互作用の空間的ローカライズを学習する能力である。学習中のコントラスト損失を効果的に最適化できる多層マルチモーダルアテンションネットワークを提案する。
論文参考訳（メタデータ） (2021-10-20T14:45:13Z)
Learning by Aligning Videos in Time [10.075645944474287]
本稿では,時間的映像アライメントを前提課題として,映像表現を学習するための自己教師型アプローチを提案する。我々は、エンコーダネットワークをトレーニングするための監視信号として使用できる、時間的アライメント損失と時間的正規化項の新たな組み合わせを利用する。
論文参考訳（メタデータ） (2021-03-31T17:55:52Z)
Contrastive Transformation for Self-supervised Correspondence Learning [120.62547360463923]
野生のラベルのない動画を用いて,視覚的対応の自己監督学習について検討する。本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。我々のフレームワークは、近年の視覚的タスクにおける自己監督型対応手法よりも優れています。
論文参考訳（メタデータ） (2020-12-09T14:05:06Z)
Self-supervised Video Representation Learning by Uncovering Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文参考訳（メタデータ） (2020-08-31T08:31:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。