論文の概要: Leveraging Motion Information for Better Self-Supervised Video Correspondence Learning
- arxiv url: http://arxiv.org/abs/2503.12026v1
- Date: Sat, 15 Mar 2025 07:25:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:31:36.049489
- Title: Leveraging Motion Information for Better Self-Supervised Video Correspondence Learning
- Title(参考訳): 自己監督型ビデオ対応学習のための動き情報の活用
- Authors: Zihan Zhoua, Changrui Daia, Aibo Songa, Xiaolin Fang,
- Abstract要約: 我々は,効率的な自己教師型ビデオ対応学習フレームワークを開発した。
まず、ビデオ中の物体の動的動きをキャプチャーすることを強調するモーションエンハンスメントエンジンを設計する。
さらに,画素間対応情報に対するフレキシブルサンプリング戦略を導入する。
- 参考スコア(独自算出の注目度): 2.6791864991440195
- License:
- Abstract: Self-supervised video correspondence learning depends on the ability to accurately associate pixels between video frames that correspond to the same visual object. However, achieving reliable pixel matching without supervision remains a major challenge. To address this issue, recent research has focused on feature learning techniques that aim to encode unique pixel representations for matching. Despite these advances, existing methods still struggle to achieve exact pixel correspondences and often suffer from false matches, limiting their effectiveness in self-supervised settings. To this end, we explore an efficient self-supervised Video Correspondence Learning framework (MER) that aims to accurately extract object details from unlabeled videos. First, we design a dedicated Motion Enhancement Engine that emphasizes capturing the dynamic motion of objects in videos. In addition, we introduce a flexible sampling strategy for inter-pixel correspondence information (Multi-Cluster Sampler) that enables the model to pay more attention to the pixel changes of important objects in motion. Through experiments, our algorithm outperforms the state-of-the-art competitors on video correspondence learning tasks such as video object segmentation and video object keypoint tracking.
- Abstract(参考訳): 自己教師付きビデオ対応学習は、同じ視覚オブジェクトに対応するビデオフレーム間の画素を正確に関連付ける能力に依存する。
しかし、監督なしで信頼性の高いピクセルマッチングを実現することは、依然として大きな課題である。
この問題に対処するために、近年の研究は、マッチングのためのユニークなピクセル表現を符号化することを目的とした特徴学習技術に焦点を当てている。
これらの進歩にもかかわらず、既存の手法は正確なピクセル対応を達成するのに苦慮し、しばしば偽の一致に悩まされ、自己監督された設定での有効性を制限している。
そこで本稿では,未収録ビデオからオブジェクトの詳細を正確に抽出することを目的とした,効率的な自己教師型ビデオ対応学習フレームワーク(MER)について検討する。
まず、ビデオ中の物体の動的動きをキャプチャーすることを強調するモーションエンハンスメントエンジンを設計する。
さらに,画素間対応情報(Multi-Cluster Sampler)に対するフレキシブルサンプリング戦略を導入する。
実験により,本アルゴリズムは,映像オブジェクトのセグメンテーションやビデオオブジェクトのキーポイントトラッキングといった映像対応学習タスクにおいて,最先端の競争相手よりも優れていた。
関連論文リスト
- CrossVideoMAE: Self-Supervised Image-Video Representation Learning with Masked Autoencoders [6.159948396712944]
CrossVideoMAEはビデオレベルとフレームレベルのリッチテンポラル表現とセマンティック属性の両方を学ぶ。
提案手法は,ビデオからの時間的情報とサンプルフレームからの空間的情報を統合する。
これは、ビデオおよびフレーム画像のモダリティから、リッチでラベルなしなガイド信号の自己教師型取得に不可欠である。
論文 参考訳(メタデータ) (2025-02-08T06:15:39Z) - Learning Motion and Temporal Cues for Unsupervised Video Object Segmentation [49.113131249753714]
本稿では,動きと時間的手がかりを同時に活用する,MTNetと呼ばれる効率的なアルゴリズムを提案する。
MTNetは、エンコーダ内の特徴抽出過程において、外観と動作の特徴を効果的にマージすることによって考案される。
派生した機能を最適に活用するために、すべての機能レベルのデコーダのカスケードを使用します。
論文 参考訳(メタデータ) (2025-01-14T03:15:46Z) - Rethinking Image-to-Video Adaptation: An Object-centric Perspective [61.833533295978484]
本稿では,オブジェクト中心の視点から,画像から映像への適応戦略を提案する。
人間の知覚に触発されて、物体発見のプロキシタスクを画像-映像間移動学習に統合する。
論文 参考訳(メタデータ) (2024-07-09T13:58:10Z) - Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。
スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。
我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文 参考訳(メタデータ) (2024-06-08T14:25:57Z) - LOCATE: Self-supervised Object Discovery via Flow-guided Graph-cut and
Bootstrapped Self-training [13.985488693082981]
動作情報と外観情報を利用して高品質な物体分割マスクを生成する自己教師型物体発見手法を提案する。
複数の標準ビデオオブジェクトセグメンテーション、画像のサリエンシ検出、オブジェクトセグメンテーションベンチマークにおいて、LOCATEと呼ばれるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-08-22T07:27:09Z) - Learning Fine-Grained Features for Pixel-wise Video Correspondences [13.456993858078514]
画素ワイド対応を確立するための学習機能の問題に対処する。
光フローと自己教師付き特徴学習によってモチベーションを得るとともに、ラベル付き合成ビデオだけでなく、ラベル付き実世界のビデオも活用することを提案する。
一連の対応型タスクに対する実験結果から,提案手法は最先端のライバルよりも精度と効率が優れていることが示された。
論文 参考訳(メタデータ) (2023-08-06T07:27:17Z) - Pixel-level Correspondence for Self-Supervised Learning from Video [56.24439897867531]
ピクセルレベルの対応 (PiCo) はビデオから高密度なコントラスト学習を行う方法である。
標準的なベンチマークでPiCoを検証し、複数の高密度予測タスクで自己教師付きベースラインを上回ります。
論文 参考訳(メタデータ) (2022-07-08T12:50:13Z) - Learning Pixel-Level Distinctions for Video Highlight Detection [39.23271866827123]
我々は,ビデオハイライト検出を改善するために,画素レベルの区別を学習することを提案する。
このピクセルレベルの区別は、あるビデオの各ピクセルが興味深いセクションに属しているかどうかを示す。
画素レベルの区別を推定するために,エンコーダ・デコーダネットワークを設計する。
論文 参考訳(メタデータ) (2022-04-10T06:41:16Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Contrastive Transformation for Self-supervised Correspondence Learning [120.62547360463923]
野生のラベルのない動画を用いて,視覚的対応の自己監督学習について検討する。
本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。
我々のフレームワークは、近年の視覚的タスクにおける自己監督型対応手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-09T14:05:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。