論文の概要: Breaking Shortcut: Exploring Fully Convolutional Cycle-Consistency for
Video Correspondence Learning
- arxiv url: http://arxiv.org/abs/2105.05838v1
- Date: Wed, 12 May 2021 17:52:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-13 13:21:17.505791
- Title: Breaking Shortcut: Exploring Fully Convolutional Cycle-Consistency for
Video Correspondence Learning
- Title(参考訳): ブレークスルーショートカット:ビデオ対応学習における完全畳み込み型サイクルコンシスタンスの検討
- Authors: Yansong Tang, Zhenyu Jiang, Zhenda Xie, Yue Cao, Zheng Zhang, Philip
H. S. Torr, Han Hu
- Abstract要約: 我々は、推論プロセスによりシンプルで一貫性のある完全な畳み込み法を提案する。
この崩壊現象の背景にある下線原因について検討し,画素の絶対位置がサイクルコンシスタンスを容易に達成するための近道であることを示す。
- 参考スコア(独自算出の注目度): 78.43196840793489
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous cycle-consistency correspondence learning methods usually leverage
image patches for training. In this paper, we present a fully convolutional
method, which is simpler and more coherent to the inference process. While
directly applying fully convolutional training results in model collapse, we
study the underline reason behind this collapse phenomenon, indicating that the
absolute positions of pixels provide a shortcut to easily accomplish
cycle-consistence, which hinders the learning of meaningful visual
representations. To break this absolute position shortcut, we propose to apply
different crops for forward and backward frames, and adopt feature warping to
establish correspondence between two crops of a same frame. The former
technique enforces the corresponding pixels at forward and back tracks to have
different absolute positions, and the latter effectively blocks the shortcuts
going between forward and back tracks. In three label propagation benchmarks
for pose tracking, face landmark tracking and video object segmentation, our
method largely improves the results of vanilla fully convolutional
cycle-consistency method, achieving very competitive performance compared with
the self-supervised state-of-the-art approaches.
- Abstract(参考訳): 以前のサイクル一貫性対応学習法は、通常訓練にイメージパッチを利用する。
本稿では,推論プロセスによりシンプルで一貫性のある完全畳み込み法を提案する。
モデル崩壊における完全畳み込み学習結果を直接適用しながら,この崩壊現象の背景にある下線的理由について検討し,ピクセルの絶対位置が,有意義な視覚表現の学習を妨げるようなサイクルコンシステンスを容易に達成するための近道であることを示す。
この絶対位置ショートカットを破るために, 異なる作物を前後のフレームに適用し, 同じフレームの作物同士の対応を確立するために, 特徴ウォーピングを採用することを提案する。
前者の手法では、前後のトラックで対応するピクセルに絶対位置が異なるように強制し、後者は前方と後方のトラック間のショートカットを効果的にブロックする。
ポーズ追跡,顔ランドマーク追跡,ビデオオブジェクトセグメンテーションのための3つのラベル伝搬ベンチマークにおいて,本手法は,バニラ完全畳み込み型サイクル・コンシステンシー法の結果を大きく改善し,自己教師ありの最先端手法と比較して,非常に競争力の高い性能を実現する。
関連論文リスト
- Self-Supervised Any-Point Tracking by Contrastive Random Walks [17.50529887238381]
我々はグローバルマッチング変換器を訓練し、コントラッシブなランダムウォークを通してビデオを通してサイクル整合性のあるトラックを見つける。
提案手法はTapVidベンチマークで高い性能を達成し,従来の自己教師付きトラッキング手法よりも優れていた。
論文 参考訳(メタデータ) (2024-09-24T17:59:56Z) - Refining Pre-Trained Motion Models [56.18044168821188]
我々は、自己教師付きトレーニングによる最先端の教師付きモデルの改善に挑戦する。
実世界の未学習ビデオから「クリーン」な訓練信号を得ることに重点を置いている。
本研究では,本手法が実動画における完全教師付き手法よりも信頼性が高いことを示す。
論文 参考訳(メタデータ) (2024-01-01T18:59:33Z) - Q-REG: End-to-End Trainable Point Cloud Registration with Surface
Curvature [81.25511385257344]
本稿では、リッチな幾何学的情報を用いて、単一の対応から剛性ポーズを推定する新しい解Q-REGを提案する。
Q-REGは、堅牢な推定を徹底的な探索として形式化し、エンドツーエンドのトレーニングを可能にする。
実験では、Q-REGは対応マッチング法に非依存であり、推論とエンドツーエンドトレーニングの両方で使用した場合に一貫した改善を提供する。
論文 参考訳(メタデータ) (2023-09-27T20:58:53Z) - Meta Transferring for Deblurring [43.86235102507237]
動的シーンのデブロリングに基底事実を用いることなくテスト時間適応を実現するためのreblur-deメタトランスファー方式を提案する。
我々は、ぼやけた入力ビデオを利用して、比較的シャープなパッチを偽の土台真実として見つけ、利用する。
我々のreblur-deメタラーニングスキームは、DVD、REDS、RealBlurベンチマークデータセットの最先端のデブロアリングモデルを改善することができる。
論文 参考訳(メタデータ) (2022-10-14T18:06:33Z) - One Sketch for All: One-Shot Personalized Sketch Segmentation [84.45203849671003]
そこで本研究では,最初のワンショットパーソナライズドスケッチセグメンテーション手法を提案する。
我々は、同じカテゴリに属するすべてのスケッチを、特定の部分アノテーション付きの1つのスケッチでセグメント化することを目指している。
私たちは、例に埋め込まれた部分のセマンティクスを保存し、入力スタイルと抽象化に堅牢です。
論文 参考訳(メタデータ) (2021-12-20T20:10:44Z) - Semi-TCL: Semi-Supervised Track Contrastive Representation Learning [40.31083437957288]
我々は、外観埋め込みを学習するために、新しいインスタンス・ツー・トラックマッチングの目的を設計する。
候補検出とトラッカーに永続化されたトラックの埋め込みを比較する。
我々は,この学習目標を,構成的損失の精神に倣って統一的な形で実施する。
論文 参考訳(メタデータ) (2021-07-06T05:23:30Z) - Unsupervised Landmark Learning from Unpaired Data [117.81440795184587]
教師なしランドマーク学習の最近の試みは、外観は似ているがポーズでは異なる合成画像対を活用する。
本稿では,2回スワッピング・リコンストラクション・ストラテジーを適用して最終監視を行うクロスイメージ・サイクル整合性フレームワークを提案する。
提案するフレームワークは,強いベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-06-29T13:57:20Z) - Space-Time Correspondence as a Contrastive Random Walk [47.40711876423659]
我々は,ビデオから構築した時空間グラフにおけるリンクの予測として対応をキャストした。
ペアの類似性がランダムウォークの遷移確率を定義する表現を学習する。
我々は、エッジドロップアウトと呼ばれる手法と、テスト時の自己教師付き適応が、オブジェクト中心の対応の転送をさらに改善することを示した。
論文 参考訳(メタデータ) (2020-06-25T17:56:05Z) - LT-Net: Label Transfer by Learning Reversible Voxel-wise Correspondence
for One-shot Medical Image Segmentation [52.2074595581139]
医用画像における手動アノテーションの負担を軽減するため, ワンショットセグメンテーション手法を提案する。
第一の考え方は、単発セグメンテーションを古典的なアトラスに基づくセグメンテーション問題として扱うことである。
深層学習に基づくワンショットセグメンテーション法と古典的マルチアトラスセグメンテーション法に比較して,本手法が優れていることを示す。
論文 参考訳(メタデータ) (2020-03-16T08:36:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。