論文の概要: Learning Fine-Grained Features for Pixel-wise Video Correspondences
- arxiv url: http://arxiv.org/abs/2308.03040v1
- Date: Sun, 6 Aug 2023 07:27:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 16:58:28.529535
- Title: Learning Fine-Grained Features for Pixel-wise Video Correspondences
- Title(参考訳): 画素ワイドビデオ対応のための細粒度特徴の学習
- Authors: Rui Li, Shenglong Zhou, Dong Liu
- Abstract要約: 画素ワイド対応を確立するための学習機能の問題に対処する。
光フローと自己教師付き特徴学習によってモチベーションを得るとともに、ラベル付き合成ビデオだけでなく、ラベル付き実世界のビデオも活用することを提案する。
一連の対応型タスクに対する実験結果から,提案手法は最先端のライバルよりも精度と効率が優れていることが示された。
- 参考スコア(独自算出の注目度): 13.456993858078514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video analysis tasks rely heavily on identifying the pixels from different
frames that correspond to the same visual target. To tackle this problem,
recent studies have advocated feature learning methods that aim to learn
distinctive representations to match the pixels, especially in a
self-supervised fashion. Unfortunately, these methods have difficulties for
tiny or even single-pixel visual targets. Pixel-wise video correspondences were
traditionally related to optical flows, which however lead to deterministic
correspondences and lack robustness on real-world videos. We address the
problem of learning features for establishing pixel-wise correspondences.
Motivated by optical flows as well as the self-supervised feature learning, we
propose to use not only labeled synthetic videos but also unlabeled real-world
videos for learning fine-grained representations in a holistic framework. We
adopt an adversarial learning scheme to enhance the generalization ability of
the learned features. Moreover, we design a coarse-to-fine framework to pursue
high computational efficiency. Our experimental results on a series of
correspondence-based tasks demonstrate that the proposed method outperforms
state-of-the-art rivals in both accuracy and efficiency.
- Abstract(参考訳): ビデオ分析タスクは、同じ視覚ターゲットに対応する異なるフレームからピクセルを識別することに大きく依存する。
この問題に対処するため、近年の研究では、特に自己監督的な方法で、画素にマッチする特徴表現を学習することを目的とした特徴学習手法が提唱されている。
残念なことに、これらの手法は小さな、あるいは1ピクセルの視覚ターゲットでは困難である。
画素ワイドビデオ対応は伝統的に光学フローと関連付けられており、決定論的対応と現実世界のビデオの堅牢性に欠ける。
画素ワイド対応を確立するための学習機能の問題に対処する。
自己教師付き特徴学習だけでなく,光学的流れにも動機づけられ,合成ビデオのラベル付けだけでなく,実世界ビデオのラベル付き表示を包括的枠組みで学習する手法を提案する。
我々は,学習特徴の一般化能力を高めるために,逆学習方式を採用する。
さらに,計算効率を高めるために,粗大なフレームワークを設計する。
一連の対応型タスクに対する実験結果から,提案手法は最先端のライバルよりも精度と効率が優れていることが示された。
関連論文リスト
- Contrastive Losses Are Natural Criteria for Unsupervised Video
Summarization [27.312423653997087]
ビデオの要約は、ビデオ内の最も情報に富むサブセットを選択して、効率的なビデオブラウジングを容易にすることを目的としている。
本稿では,局所的な相似性,グローバルな一貫性,一意性という,望ましいキーフレームを特徴とする3つの指標を提案する。
本研究は,事前学習した特徴を軽量なプロジェクションモジュールで洗練することにより,フレームレベルの重要度をさらに向上できることを示す。
論文 参考訳(メタデータ) (2022-11-18T07:01:28Z) - Pixel-level Correspondence for Self-Supervised Learning from Video [56.24439897867531]
ピクセルレベルの対応 (PiCo) はビデオから高密度なコントラスト学習を行う方法である。
標準的なベンチマークでPiCoを検証し、複数の高密度予測タスクで自己教師付きベースラインを上回ります。
論文 参考訳(メタデータ) (2022-07-08T12:50:13Z) - Learning Pixel-Level Distinctions for Video Highlight Detection [39.23271866827123]
我々は,ビデオハイライト検出を改善するために,画素レベルの区別を学習することを提案する。
このピクセルレベルの区別は、あるビデオの各ピクセルが興味深いセクションに属しているかどうかを示す。
画素レベルの区別を推定するために,エンコーダ・デコーダネットワークを設計する。
論文 参考訳(メタデータ) (2022-04-10T06:41:16Z) - Learning from Untrimmed Videos: Self-Supervised Video Representation
Learning with Hierarchical Consistency [60.756222188023635]
教師なしビデオにおいて,より豊富な情報を活用することで表現の学習を提案する。
HiCoは、トリミングされていないビデオのより強力な表現を生成するだけでなく、トリミングされたビデオに適用した場合の表現品質も向上する。
論文 参考訳(メタデータ) (2022-04-06T18:04:54Z) - TokenLearner: What Can 8 Learned Tokens Do for Images and Videos? [89.17394772676819]
適応的に学習したトークンに頼った新しい視覚表現学習を導入する。
本実験は,画像認識と画像認識の両タスクにおいて,いくつかの困難なベンチマークで高い性能を示した。
論文 参考訳(メタデータ) (2021-06-21T17:55:59Z) - Contrastive Learning of Image Representations with Cross-Video
Cycle-Consistency [13.19476138523546]
ビデオ間関係は視覚表現学習ではほとんど研究されていない。
本稿では,一般画像表現学習のサイクル一貫性を利用して,映像間関係を探索する新しいコントラスト学習手法を提案する。
最先端のコントラスト学習方法よりも大幅に改善されています。
論文 参考訳(メタデータ) (2021-05-13T17:59:11Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Self-Supervised Representation Learning from Flow Equivariance [97.13056332559526]
本稿では,複雑なシーンの映像ストリームに直接展開可能な,自己教師型学習表現フレームワークを提案する。
高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
論文 参考訳(メタデータ) (2021-01-16T23:44:09Z) - Contrastive Transformation for Self-supervised Correspondence Learning [120.62547360463923]
野生のラベルのない動画を用いて,視覚的対応の自己監督学習について検討する。
本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。
我々のフレームワークは、近年の視覚的タスクにおける自己監督型対応手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-09T14:05:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。