論文の概要: Semi-Supervised Action Recognition with Temporal Contrastive Learning
- arxiv url: http://arxiv.org/abs/2102.02751v1
- Date: Thu, 4 Feb 2021 17:28:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-05 16:25:05.119425
- Title: Semi-Supervised Action Recognition with Temporal Contrastive Learning
- Title(参考訳): 時間的コントラスト学習による半教師付き行動認識
- Authors: Ankit Singh, Omprakash Chakraborty, Ashutosh Varshney, Rameswar Panda,
Rogerio Feris, Kate Saenko, Abir Das
- Abstract要約: 2つの異なる速度でラベル付きビデオを用いて2経路の時間的コントラストモデルを学習する。
我々は最先端の半教師付き画像認識手法の映像拡張性能を著しく向上させた。
- 参考スコア(独自算出の注目度): 50.08957096801457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning to recognize actions from only a handful of labeled videos is a
challenging problem due to the scarcity of tediously collected activity labels.
We approach this problem by learning a two-pathway temporal contrastive model
using unlabeled videos at two different speeds leveraging the fact that
changing video speed does not change an action. Specifically, we propose to
maximize the similarity between encoded representations of the same video at
two different speeds as well as minimize the similarity between different
videos played at different speeds. This way we use the rich supervisory
information in terms of 'time' that is present in otherwise unsupervised pool
of videos. With this simple yet effective strategy of manipulating video
playback rates, we considerably outperform video extensions of sophisticated
state-of-the-art semi-supervised image recognition methods across multiple
diverse benchmark datasets and network architectures. Interestingly, our
proposed approach benefits from out-of-domain unlabeled videos showing
generalization and robustness. We also perform rigorous ablations and analysis
to validate our approach.
- Abstract(参考訳): ラベル付きビデオからのみアクションを認識することを学ぶことは、退屈に収集されたアクティビティラベルが不足しているため、難しい問題である。
映像速度の変化がアクションを変化させないという事実を利用して、ラベルのない動画を2つの異なる速度で2経路時間的コントラストモデルで学習することでこの問題にアプローチします。
具体的には,同一映像の符号化表現間の類似性を2つの異なる速度で最大化し,異なる速度で再生される異なる映像間の類似性を最小化する。
この方法では、監視されていないビデオのプールに存在する「時間」という観点で、豊富な監督情報を使用する。
ビデオ再生速度を操作するこのシンプルで効果的な戦略により、さまざまなベンチマークデータセットとネットワークアーキテクチャにまたがる最先端の半監視画像認識手法のビデオ拡張機能を大幅に上回ります。
興味深いことに、提案手法は一般化と堅牢性を示すドメイン外無ラベルビデオの恩恵を受ける。
我々はまた,アプローチを検証するために,厳密なアブレーションと分析を行う。
関連論文リスト
- SITAR: Semi-supervised Image Transformer for Action Recognition [20.609596080624662]
本稿では,少数のラベル付きビデオを利用する半教師付き環境での映像行動認識について述べる。
我々は、ラベルなしサンプルの膨大なプールを利用して、エンコードされたスーパーイメージに対して対照的な学習を行う。
本手法は,従来の半教師あり行動認識手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-04T17:49:54Z) - TimeBalance: Temporally-Invariant and Temporally-Distinctive Video
Representations for Semi-Supervised Action Recognition [68.53072549422775]
学生教師による半教師付き学習フレームワークTimeBalanceを提案する。
時間的に不変であり,時間的に異なる教師から知識を抽出する。
提案手法は,3つの動作認識ベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-28T19:28:54Z) - Self-supervised and Weakly Supervised Contrastive Learning for
Frame-wise Action Representations [26.09611987412578]
本稿では,フレームワイドな行動表現を自己監督的あるいは弱監督的に学習するための,コントラッシブ・アクション表現学習(CARL)の枠組みを紹介する。
具体的には,空間的コンテキストと時間的コンテキストの両方を考慮した,シンプルだが効果的なビデオエンコーダを提案する。
提案手法は,下流の微細な動作分類とより高速な推論において,従来の最先端技術よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-06T16:42:22Z) - Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。
我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-27T16:38:52Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Learning Implicit Temporal Alignment for Few-shot Video Classification [40.57508426481838]
少数のビデオ分類は、いくつかのラベル付き例で新しいビデオカテゴリを学ぶことを目的としています。
このような設定でクラス不変な空間-時間表現を学ぶことは特に難しい。
本研究は,映像系列に対する新しいマッチングベースの少数ショット学習戦略を提案する。
論文 参考訳(メタデータ) (2021-05-11T07:18:57Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z) - RSPNet: Relative Speed Perception for Unsupervised Video Representation
Learning [100.76672109782815]
本研究では,未ラベル映像のみから動作特徴と外観特徴の両方を学習するための教師なし映像表現学習について検討する。
動作と外観の両方をうまくモデル化するために、適切な自己指導タスクを構築することは困難である。
再生速度を知覚し、2つのビデオクリップ間の相対速度をラベルとして利用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T16:42:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。