論文の概要: TimeBalance: Temporally-Invariant and Temporally-Distinctive Video
Representations for Semi-Supervised Action Recognition
- arxiv url: http://arxiv.org/abs/2303.16268v1
- Date: Tue, 28 Mar 2023 19:28:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 17:02:23.492577
- Title: TimeBalance: Temporally-Invariant and Temporally-Distinctive Video
Representations for Semi-Supervised Action Recognition
- Title(参考訳): TimeBalance: 半監督行動認識のための時間的不変および時間的識別ビデオ表現
- Authors: Ishan Rajendrakumar Dave, Mamshad Nayeem Rizve, Chen Chen, Mubarak
Shah
- Abstract要約: 学生教師による半教師付き学習フレームワークTimeBalanceを提案する。
時間的に不変であり,時間的に異なる教師から知識を抽出する。
提案手法は,3つの動作認識ベンチマーク上での最先端性能を実現する。
- 参考スコア(独自算出の注目度): 68.53072549422775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semi-Supervised Learning can be more beneficial for the video domain compared
to images because of its higher annotation cost and dimensionality. Besides,
any video understanding task requires reasoning over both spatial and temporal
dimensions. In order to learn both the static and motion related features for
the semi-supervised action recognition task, existing methods rely on hard
input inductive biases like using two-modalities (RGB and Optical-flow) or
two-stream of different playback rates. Instead of utilizing unlabeled videos
through diverse input streams, we rely on self-supervised video
representations, particularly, we utilize temporally-invariant and
temporally-distinctive representations. We observe that these representations
complement each other depending on the nature of the action. Based on this
observation, we propose a student-teacher semi-supervised learning framework,
TimeBalance, where we distill the knowledge from a temporally-invariant and a
temporally-distinctive teacher. Depending on the nature of the unlabeled video,
we dynamically combine the knowledge of these two teachers based on a novel
temporal similarity-based reweighting scheme. Our method achieves
state-of-the-art performance on three action recognition benchmarks: UCF101,
HMDB51, and Kinetics400. Code: https://github.com/DAVEISHAN/TimeBalance
- Abstract(参考訳): 半教師付き学習は、注釈コストと次元性が高いため、画像に比べてビデオ領域に有益である。
さらに、ビデオ理解タスクは、空間的次元と時間的次元の両方を推論する必要がある。
半教師付き動作認識タスクの静的および動きに関連した特徴を学習するために、既存の手法では、2つのモード(RGBと光フロー)または異なる再生レートの2ストリームを使用するようなハード入力誘導バイアスに依存している。
多様な入力ストリームを通じてラベル付けされていないビデオを利用する代わりに、自己教師付きビデオ表現に依存し、特に時間的不変および時間的特定表現を利用する。
我々は、これらの表現が作用の性質に応じて互いに補完することを観察する。
本研究では,時間的不変性と時間的識別性のある教師から知識を抽出する,学生教師による半教師型学習フレームワークであるTimeBalanceを提案する。
ラベルのない映像の性質に応じて,新しい時間的類似性に基づく再重み付け方式に基づいて,この2つの教師の知識を動的に結合する。
提案手法は,UCF101,HMDB51,Kineetics400の3つの動作認識ベンチマークにおける最先端性能を実現する。
コード:https://github.com/DAVEISHAN/TimeBalance
関連論文リスト
- Self-Supervised Video Representation Learning via Latent Time Navigation [12.721647696921865]
自己教師付きビデオ表現学習は、1つのビデオの異なる時間セグメント間の類似性を最大化することを目的としている。
微粒な動きを捉えるために、LTN(Latent Time Navigation)を提案する。
実験により,LTNによる映像表現の学習は,動作分類の性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2023-05-10T20:06:17Z) - Time Is MattEr: Temporal Self-supervision for Video Transformers [72.42240984211283]
我々は、時間的ダイナミクスをよりよく学習するために、ビデオモデルのための単純で効果的な自己教師型タスクを設計する。
ビデオフレームの時間順序を余分な自己監督として学習し、ランダムにシャッフルされたフレームを低信頼出力に強制する。
様々なビデオ行動認識タスクにおいて,本手法の有効性と最先端のビデオ変換器との互換性を実証する。
論文 参考訳(メタデータ) (2022-07-19T04:44:08Z) - Time-Equivariant Contrastive Video Representation Learning [47.50766781135863]
本稿では,非競合ビデオから表現を学習するための,自己指導型コントラスト学習手法を提案する。
実験により,映像検索と行動認識のベンチマークにおいて,時変表現が最先端の結果をもたらすことが示された。
論文 参考訳(メタデータ) (2021-12-07T10:45:43Z) - Learning from Temporal Gradient for Semi-supervised Action Recognition [15.45239134477737]
より注意的な特徴抽出のための追加のモダリティとして時間勾配を導入する。
提案手法は,3つのビデオ行動認識ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-11-25T20:30:30Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Semi-Supervised Action Recognition with Temporal Contrastive Learning [50.08957096801457]
2つの異なる速度でラベル付きビデオを用いて2経路の時間的コントラストモデルを学習する。
我々は最先端の半教師付き画像認識手法の映像拡張性能を著しく向上させた。
論文 参考訳(メタデータ) (2021-02-04T17:28:35Z) - RSPNet: Relative Speed Perception for Unsupervised Video Representation
Learning [100.76672109782815]
本研究では,未ラベル映像のみから動作特徴と外観特徴の両方を学習するための教師なし映像表現学習について検討する。
動作と外観の両方をうまくモデル化するために、適切な自己指導タスクを構築することは困難である。
再生速度を知覚し、2つのビデオクリップ間の相対速度をラベルとして利用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T16:42:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。