論文の概要: Self-supervised learning using consistency regularization of
spatio-temporal data augmentation for action recognition
- arxiv url: http://arxiv.org/abs/2008.02086v1
- Date: Wed, 5 Aug 2020 12:41:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 18:19:55.721962
- Title: Self-supervised learning using consistency regularization of
spatio-temporal data augmentation for action recognition
- Title(参考訳): 行動認識のための時空間データ拡張の一貫性正規化を用いた自己教師付き学習
- Authors: Jinpeng Wang, Yiqi Lin, Andy J.Ma
- Abstract要約: 整合正則化に基づく高次特徴写像に基づく代理監視信号を得るための新しい手法を提案する。
本手法は,動作認識のための最先端の自己教師型学習法と比較して,大幅に改善されている。
- 参考スコア(独自算出の注目度): 15.701647552427708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning has shown great potentials in improving the deep
learning model in an unsupervised manner by constructing surrogate supervision
signals directly from the unlabeled data. Different from existing works, we
present a novel way to obtain the surrogate supervision signal based on
high-level feature maps under consistency regularization. In this paper, we
propose a Spatio-Temporal Consistency Regularization between different output
features generated from a siamese network including a clean path fed with
original video and a noise path fed with the corresponding augmented video.
Based on the Spatio-Temporal characteristics of video, we develop two
video-based data augmentation methods, i.e., Spatio-Temporal Transformation and
Intra-Video Mixup. Consistency of the former one is proposed to model
transformation consistency of features, while the latter one aims at retaining
spatial invariance to extract action-related features. Extensive experiments
demonstrate that our method achieves substantial improvements compared with
state-of-the-art self-supervised learning methods for action recognition. When
using our method as an additional regularization term and combine with current
surrogate supervision signals, we achieve 22% relative improvement over the
previous state-of-the-art on HMDB51 and 7% on UCF101.
- Abstract(参考訳): 自己教師付き学習は、ラベルなしデータから直接監視信号を構築することにより、教師なしの方法でディープラーニングモデルを改善する大きな可能性を示している。
既存の研究とは違って,一貫性の正則化に基づく高次特徴写像に基づく監視信号を得るための新しい手法を提案する。
本稿では,オリジナル映像を流すクリーンパスと,対応する拡張映像を流すノイズパスを含む,サイムズネットワークから発生する異なる出力特徴間の時空間整合性正規化を提案する。
ビデオの時空間特性に基づいて、2つのビデオベースデータ拡張手法、すなわち時空間変換とビデオ内混合を開発する。
前者の一貫性は特徴の変換一貫性をモデル化するために提案され、後者は行動関連特徴を抽出するために空間的不変性を維持することを目的としている。
大規模実験により,本手法は動作認識のための最先端の自己教師型学習法と比較して,大幅な改善が得られた。
本手法を追加正規化項として使用し,現在の監視信号と組み合わせた場合,従来のhmdb51では22%,utf101では7%の相対的改善が得られた。
関連論文リスト
- MOOSS: Mask-Enhanced Temporal Contrastive Learning for Smooth State Evolution in Visual Reinforcement Learning [8.61492882526007]
視覚的強化学習(RL)では、ピクセルベースの観察から学ぶことは、サンプル効率に大きな課題をもたらす。
グラフベースの時空間マスキングの助けを借りて時間的コントラストの目的を生かした新しいフレームワークMOOSSを紹介する。
複数の連続的および離散的な制御ベンチマークにおいて、MOOSSはサンプル効率の観点から従来の最先端の視覚的RL法よりも優れていたことを示す。
論文 参考訳(メタデータ) (2024-09-02T18:57:53Z) - Patch Spatio-Temporal Relation Prediction for Video Anomaly Detection [19.643936110623653]
ビデオ異常検出(VAD)は、特定のコンテキストと時間枠内の異常を識別することを目的としている。
近年の深層学習に基づくVADモデルは,高解像度フレームの生成によって有望な結果を示した。
本稿では, パッチ間関係予測タスクを通じて, VADの自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T03:07:16Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Transfer of Representations to Video Label Propagation: Implementation
Factors Matter [31.030799003595522]
特徴抽出とラベル伝搬における重要な実装要因の影響について検討する。
映像ベースの通信手段を静止画像ベースで拡張することで、さらなる性能向上が期待できることを示す。
本研究は, 評価実践の改善と, 時間的対応における今後の研究方向性の報知に役立つことを期待する。
論文 参考訳(メタデータ) (2022-03-10T18:58:22Z) - Weakly Supervised Video Salient Object Detection [79.51227350937721]
本稿では,relabeled relabeled "fixation guided scribble annotations" に基づく最初の弱教師付きビデオサリエント物体検出モデルを提案する。
効果的なマルチモーダル学習と長期時間文脈モデリングを実現するために,「アプレンス・モーション・フュージョン・モジュール」と双方向のConvLSTMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-06T09:48:38Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z) - Hierarchically Decoupled Spatial-Temporal Contrast for Self-supervised
Video Representation Learning [6.523119805288132]
a) 学習対象を2つの対照的なサブタスクに分解し、空間的特徴と時間的特徴を強調し、(b) 階層的にそれを実行し、マルチスケールな理解を促進する。
論文 参考訳(メタデータ) (2020-11-23T08:05:39Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z) - Self-supervised Video Object Segmentation [76.83567326586162]
本研究の目的は、半教師付きビデオオブジェクトセグメンテーション(高密度トラッキング)の解決を目的とした自己教師付き表現学習である。
i) 従来の自己教師型アプローチを改善すること、(ii) オンライン適応モジュールによる自己教師型アプローチの強化により、空間的時間的不連続性によるトラッカーのドリフトを緩和すること、(iv) DAVIS-2017とYouTubeの自己教師型アプローチで最先端の結果を示すこと、などが提案されている。
論文 参考訳(メタデータ) (2020-06-22T17:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。