論文の概要: Spatial-then-Temporal Self-Supervised Learning for Video Correspondence
- arxiv url: http://arxiv.org/abs/2209.07778v1
- Date: Fri, 16 Sep 2022 08:10:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-19 12:41:23.555552
- Title: Spatial-then-Temporal Self-Supervised Learning for Video Correspondence
- Title(参考訳): ビデオ対応のための時空間自己監督学習
- Authors: Rui Li, Dong Liu
- Abstract要約: ラベルのないビデオから時間的対応を学ぶことは、コンピュータビジョンにおいて極めて重要である。
近年の研究では、トレーニングコストに関わらず大規模なビデオデータセットを使用することが示唆されている。
トレーニングデータコスト問題に対処する時空間前文タスクを提案する。
- 参考スコア(独自算出の注目度): 14.120908901441878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning temporal correspondence from unlabeled videos is of vital importance
in computer vision, and has been tackled by different kinds of self-supervised
pretext tasks. For the self-supervised learning, recent studies suggest using
large-scale video datasets despite the training cost. We propose a
spatial-then-temporal pretext task to address the training data cost problem.
The task consists of two steps. First, we use contrastive learning from
unlabeled still image data to obtain appearance-sensitive features. Then we
switch to unlabeled video data and learn motion-sensitive features by
reconstructing frames. In the second step, we propose a global correlation
distillation loss to retain the appearance sensitivity learned in the first
step, as well as a local correlation distillation loss in a pyramid structure
to combat temporal discontinuity. Experimental results demonstrate that our
method surpasses the state-of-the-art self-supervised methods on a series of
correspondence-based tasks. The conducted ablation studies verify the
effectiveness of the proposed two-step task and loss functions.
- Abstract(参考訳): ラベルなしビデオからの時間的対応の学習は、コンピュータビジョンにおいて極めて重要であり、様々な種類の自己教師付きプレテキストタスクによって取り組まれてきた。
近年の自己教師型学習では、トレーニングコストに関わらず大規模なビデオデータセットを使用することが提案されている。
トレーニングデータコスト問題に対処する時空間前文タスクを提案する。
作業は2つのステップで構成される。
まず、ラベルのない静止画像データからの対比学習を用いて、外観に敏感な特徴を得る。
そして、未ラベルのビデオデータに切り替え、フレームを再構築することで動きに敏感な特徴を学習する。
第2ステップでは,第1ステップで学習した外観感度を維持するためのグローバルな相関蒸留損失と,時間的不連続に対処するピラミッド構造における局所相関蒸留損失を提案する。
実験の結果,本手法は一連の対応型タスクにおいて最先端の自己教師あり手法を超えることがわかった。
本研究は,2段階の課題と損失関数の有効性を検証した。
関連論文リスト
- No More Shortcuts: Realizing the Potential of Temporal Self-Supervision [69.59938105887538]
本稿では、フレームレベルの認識タスクではなく、フレームレベルの認識タスクとして、時間的自己監督のより困難な再構築を提案する。
我々は、より困難なフレームレベルのタスクの定式化とショートカットの削除が、時間的自己監督によって学習された特徴の質を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-12-20T13:20:31Z) - VILLS -- Video-Image Learning to Learn Semantics for Person Re-Identification [51.89551385538251]
VILLS (Video-Image Learning to Learn Semantics) は画像やビデオから空間的特徴と時間的特徴を共同で学習する自己教師型手法である。
VILLSはまず、意味的一貫性と頑健な空間的特徴を適応的に抽出する局所意味抽出モジュールを設計する。
そして、VILLSは、一貫した特徴空間における画像とビデオのモダリティを表現するために、統合された特徴学習および適応モジュールを設計する。
論文 参考訳(メタデータ) (2023-11-27T19:30:30Z) - On the Importance of Spatial Relations for Few-shot Action Recognition [109.2312001355221]
本稿では,空間的関係の重要性を考察し,より正確な数発アクション認識法を提案する。
新たな空間アライメントクロストランス(SA-CT)は、空間関係を再調整し、時間情報を組み込む。
実験の結果, 時間的情報を使用しなくても, SA-CTの性能は3/4ベンチマークの時間的手法に匹敵することがわかった。
論文 参考訳(メタデータ) (2023-08-14T12:58:02Z) - Exploiting Spatial-temporal Correlations for Video Anomaly Detection [7.336831373786849]
ビデオ異常検出(VAD)は、異常事象のあいまいさと多様性のため、パターン認識コミュニティにおいて難しい課題である。
本稿では,ST-LSTMを用いて逆学習を行うための識別器を導入し,学習能力を向上させる。
本手法は, UCSD2, CUHKアベニュー, 上海テックにおいて, AUCの96.7%, 87.8%, 73.1%の最先端手法と比較して, 競争性能が向上する。
論文 参考訳(メタデータ) (2022-11-02T02:13:24Z) - Learning Appearance-motion Normality for Video Anomaly Detection [11.658792932975652]
時空間記憶を付加した2ストリーム自動エンコーダフレームワークを提案する。
見た目の正常さと動きの正常さを独立に学習し、敵の学習を通して相関関係を探索する。
我々のフレームワークは最先端の手法より優れており、UCSD Ped2とCUHK Avenueのデータセットで98.1%、89.8%のAUCを実現している。
論文 参考訳(メタデータ) (2022-07-27T08:30:19Z) - Class-Incremental Learning for Action Recognition in Videos [44.923719189467164]
ビデオ認識のためのクラス増分学習の文脈において、破滅的な忘れの問題に取り組む。
筆者らのフレームワークは、時間チャンネルの重要度マップを導入し、重要度マップを利用して、入ってくるサンプルの表現を学習することで、この課題に対処する。
提案手法は,UCF101, HMDB51, Some-Something V2データセット上に構築されたクラスインクリメンタルな行動認識ベンチマークを新たに分割する手法である。
論文 参考訳(メタデータ) (2022-03-25T12:15:49Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Hierarchically Decoupled Spatial-Temporal Contrast for Self-supervised
Video Representation Learning [6.523119805288132]
a) 学習対象を2つの対照的なサブタスクに分解し、空間的特徴と時間的特徴を強調し、(b) 階層的にそれを実行し、マルチスケールな理解を促進する。
論文 参考訳(メタデータ) (2020-11-23T08:05:39Z) - Learning Invariant Representations for Reinforcement Learning without
Reconstruction [98.33235415273562]
本研究では,表現学習が画像などのリッチな観察からの強化学習を,ドメイン知識や画素再構成に頼ることなく促進する方法について検討する。
シミュレーションメトリクスは、連続MDPの状態間の振る舞いの類似性を定量化する。
修正された視覚的 MuJoCo タスクを用いてタスク関連情報を無視する手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-06-18T17:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。