論文の概要: Spatial-then-Temporal Self-Supervised Learning for Video Correspondence
- arxiv url: http://arxiv.org/abs/2209.07778v3
- Date: Sun, 16 Apr 2023 02:35:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 00:15:33.714029
- Title: Spatial-then-Temporal Self-Supervised Learning for Video Correspondence
- Title(参考訳): ビデオ対応のための時空間自己監督学習
- Authors: Rui Li, Dong Liu
- Abstract要約: 本稿では,映像解析のための時空間自己教師型学習手法を提案する。
まず、コントラスト学習により、ラベルなし画像から空間的特徴を抽出し、ラベルなしビデオの時間的手がかりを利用して特徴を増強する。
提案手法は, 実験結果によって確立された, 最先端の自己管理手法よりも優れていた。
- 参考スコア(独自算出の注目度): 14.120908901441878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In low-level video analyses, effective representations are important to
derive the correspondences between video frames. These representations have
been learned in a self-supervised fashion from unlabeled images or videos,
using carefully designed pretext tasks in some recent studies. However, the
previous work concentrates on either spatial-discriminative features or
temporal-repetitive features, with little attention to the synergy between
spatial and temporal cues. To address this issue, we propose a
spatial-then-temporal self-supervised learning method. Specifically, we firstly
extract spatial features from unlabeled images via contrastive learning, and
secondly enhance the features by exploiting the temporal cues in unlabeled
videos via reconstructive learning. In the second step, we design a global
correlation distillation loss to ensure the learning not to forget the spatial
cues, and a local correlation distillation loss to combat the temporal
discontinuity that harms the reconstruction. The proposed method outperforms
the state-of-the-art self-supervised methods, as established by the
experimental results on a series of correspondence-based video analysis tasks.
Also, we performed ablation studies to verify the effectiveness of the two-step
design as well as the distillation losses.
- Abstract(参考訳): 低レベルビデオ解析では,映像フレーム間の対応を導出するために効果的な表現が重要である。
これらの表現は、最近のいくつかの研究で注意深く設計された前文タスクを使用して、ラベルのない画像やビデオから自己教師付きで学習されている。
しかし、従来の研究は、空間的識別的特徴または時間的反復的特徴に焦点を合わせ、空間的・時間的手がかりの相乗効果にはほとんど注意を払わない。
この問題に対処するために,時空間型自己教師型学習手法を提案する。
具体的には,無ラベル画像からコントラスト学習により空間的特徴を抽出し,復元的学習により無ラベル映像の時間的手がかりを活用し,その特徴を増強する。
第2段階では,学習者が空間的手がかりを忘れないように大域的相関蒸留損失と局所的相関蒸留損失をデザインし,再構築に影響を及ぼす時間的不連続に対処する。
提案手法は,対応型映像解析タスクにおける実験結果によって確立された,最先端の自己教師あり手法を上回っている。
また, 2段階設計の有効性と蒸留損失を検証するため, アブレーション実験を行った。
関連論文リスト
- No More Shortcuts: Realizing the Potential of Temporal Self-Supervision [69.59938105887538]
本稿では、フレームレベルの認識タスクではなく、フレームレベルの認識タスクとして、時間的自己監督のより困難な再構築を提案する。
我々は、より困難なフレームレベルのタスクの定式化とショートカットの削除が、時間的自己監督によって学習された特徴の質を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-12-20T13:20:31Z) - VILLS -- Video-Image Learning to Learn Semantics for Person Re-Identification [51.89551385538251]
VILLS (Video-Image Learning to Learn Semantics) は画像やビデオから空間的特徴と時間的特徴を共同で学習する自己教師型手法である。
VILLSはまず、意味的一貫性と頑健な空間的特徴を適応的に抽出する局所意味抽出モジュールを設計する。
そして、VILLSは、一貫した特徴空間における画像とビデオのモダリティを表現するために、統合された特徴学習および適応モジュールを設計する。
論文 参考訳(メタデータ) (2023-11-27T19:30:30Z) - On the Importance of Spatial Relations for Few-shot Action Recognition [109.2312001355221]
本稿では,空間的関係の重要性を考察し,より正確な数発アクション認識法を提案する。
新たな空間アライメントクロストランス(SA-CT)は、空間関係を再調整し、時間情報を組み込む。
実験の結果, 時間的情報を使用しなくても, SA-CTの性能は3/4ベンチマークの時間的手法に匹敵することがわかった。
論文 参考訳(メタデータ) (2023-08-14T12:58:02Z) - Exploiting Spatial-temporal Correlations for Video Anomaly Detection [7.336831373786849]
ビデオ異常検出(VAD)は、異常事象のあいまいさと多様性のため、パターン認識コミュニティにおいて難しい課題である。
本稿では,ST-LSTMを用いて逆学習を行うための識別器を導入し,学習能力を向上させる。
本手法は, UCSD2, CUHKアベニュー, 上海テックにおいて, AUCの96.7%, 87.8%, 73.1%の最先端手法と比較して, 競争性能が向上する。
論文 参考訳(メタデータ) (2022-11-02T02:13:24Z) - Learning Appearance-motion Normality for Video Anomaly Detection [11.658792932975652]
時空間記憶を付加した2ストリーム自動エンコーダフレームワークを提案する。
見た目の正常さと動きの正常さを独立に学習し、敵の学習を通して相関関係を探索する。
我々のフレームワークは最先端の手法より優れており、UCSD Ped2とCUHK Avenueのデータセットで98.1%、89.8%のAUCを実現している。
論文 参考訳(メタデータ) (2022-07-27T08:30:19Z) - Class-Incremental Learning for Action Recognition in Videos [44.923719189467164]
ビデオ認識のためのクラス増分学習の文脈において、破滅的な忘れの問題に取り組む。
筆者らのフレームワークは、時間チャンネルの重要度マップを導入し、重要度マップを利用して、入ってくるサンプルの表現を学習することで、この課題に対処する。
提案手法は,UCF101, HMDB51, Some-Something V2データセット上に構築されたクラスインクリメンタルな行動認識ベンチマークを新たに分割する手法である。
論文 参考訳(メタデータ) (2022-03-25T12:15:49Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Hierarchically Decoupled Spatial-Temporal Contrast for Self-supervised
Video Representation Learning [6.523119805288132]
a) 学習対象を2つの対照的なサブタスクに分解し、空間的特徴と時間的特徴を強調し、(b) 階層的にそれを実行し、マルチスケールな理解を促進する。
論文 参考訳(メタデータ) (2020-11-23T08:05:39Z) - Learning Invariant Representations for Reinforcement Learning without
Reconstruction [98.33235415273562]
本研究では,表現学習が画像などのリッチな観察からの強化学習を,ドメイン知識や画素再構成に頼ることなく促進する方法について検討する。
シミュレーションメトリクスは、連続MDPの状態間の振る舞いの類似性を定量化する。
修正された視覚的 MuJoCo タスクを用いてタスク関連情報を無視する手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-06-18T17:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。