論文の概要: Video Representation Learning by Recognizing Temporal Transformations
- arxiv url: http://arxiv.org/abs/2007.10730v1
- Date: Tue, 21 Jul 2020 11:43:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 04:56:25.710260
- Title: Video Representation Learning by Recognizing Temporal Transformations
- Title(参考訳): 時間変換認識による映像表現学習
- Authors: Simon Jenni, Givi Meishvili, Paolo Favaro
- Abstract要約: 本研究では,モーションダイナミクスの変化に応答するビデオの表現を学習するための,新たな自己教師型学習手法を提案する。
人間のアノテーションを使わずに正確な動きの学習を促進するために、ニューラルネットワークを訓練し、その時間的に変換されたバージョンから映像シーケンスを識別する。
本実験により,提案手法を用いてトレーニングしたネットワークは,動作認識のための転送性能の向上を図った。
- 参考スコア(独自算出の注目度): 37.59322456034611
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a novel self-supervised learning approach to learn
representations of videos that are responsive to changes in the motion
dynamics. Our representations can be learned from data without human annotation
and provide a substantial boost to the training of neural networks on small
labeled data sets for tasks such as action recognition, which require to
accurately distinguish the motion of objects. We promote an accurate learning
of motion without human annotation by training a neural network to discriminate
a video sequence from its temporally transformed versions. To learn to
distinguish non-trivial motions, the design of the transformations is based on
two principles: 1) To define clusters of motions based on time warps of
different magnitude; 2) To ensure that the discrimination is feasible only by
observing and analyzing as many image frames as possible. Thus, we introduce
the following transformations: forward-backward playback, random frame
skipping, and uniform frame skipping. Our experiments show that networks
trained with the proposed method yield representations with improved transfer
performance for action recognition on UCF101 and HMDB51.
- Abstract(参考訳): 動きのダイナミクスの変化に反応する映像の表現を学習するための,新しい自己教師付き学習手法を提案する。
私たちの表現は人間のアノテーションを使わずにデータから学習することができ、アクション認識などのタスクのために小さなラベル付きデータセット上でニューラルネットワークのトレーニングを大幅に向上させることができます。
ニューラルネットワークを訓練し、時間変換されたバージョンから映像シーケンスを識別することで、人間の注意なしに正確な動きの学習を促進する。
非自明な動きを区別するために、変換の設計は2つの原則に基づいている。
1) 異なる大きさのタイムワープに基づいて運動のクラスターを定義する。
2)できるだけ多くの画像フレームを観察、分析することで、識別が実現可能であることを保証する。
そこで,前向き再生,ランダムフレームスキップ,均一フレームスキップといった変換を導入する。
UCF101およびHMDB51上での動作認識において,提案手法を用いてトレーニングしたネットワークは,転送性能を向上する。
関連論文リスト
- TimeBalance: Temporally-Invariant and Temporally-Distinctive Video
Representations for Semi-Supervised Action Recognition [68.53072549422775]
学生教師による半教師付き学習フレームワークTimeBalanceを提案する。
時間的に不変であり,時間的に異なる教師から知識を抽出する。
提案手法は,3つの動作認識ベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-28T19:28:54Z) - Self-Supervised Video Representation Learning with Motion-Contrastive
Perception [13.860736711747284]
モーションコントラスト知覚ネットワーク(MCPNet)
MCPNetは、MIP(Motion Information Perception)とCIP(Contrastive Instance Perception)の2つのブランチから構成される。
本手法は,現在最先端の視覚のみによる自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-10T05:34:46Z) - Time-Equivariant Contrastive Video Representation Learning [47.50766781135863]
本稿では,非競合ビデオから表現を学習するための,自己指導型コントラスト学習手法を提案する。
実験により,映像検索と行動認識のベンチマークにおいて,時変表現が最先端の結果をもたらすことが示された。
論文 参考訳(メタデータ) (2021-12-07T10:45:43Z) - Recognizing Actions in Videos from Unseen Viewpoints [80.6338404141284]
本研究では,現在の畳み込みニューラルネットワークモデルでは,トレーニングデータに存在しないカメラ視点からの動作を認識できないことを示す。
視認不能な認識のための新しいデータセットを導入し、視点不変表現を学習するアプローチ能力を示す。
論文 参考訳(メタデータ) (2021-03-30T17:17:54Z) - Self-Supervised Learning via multi-Transformation Classification for
Action Recognition [10.676377556393527]
マルチトランスフォーメーション分類に基づく自己監督型映像表現学習手法を導入し,人間の行動を効率的に分類する。
ビデオの表現は、7つの異なる変換を分類することで自己監督的な方法で学習される。
C3Dおよび3D Resnet-18をバックボーンネットワークとして, UCF101およびHMDB51データセットの実験を行った。
論文 参考訳(メタデータ) (2021-02-20T16:11:26Z) - Self-Supervised Representation Learning from Flow Equivariance [97.13056332559526]
本稿では,複雑なシーンの映像ストリームに直接展開可能な,自己教師型学習表現フレームワークを提案する。
高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
論文 参考訳(メタデータ) (2021-01-16T23:44:09Z) - RSPNet: Relative Speed Perception for Unsupervised Video Representation
Learning [100.76672109782815]
本研究では,未ラベル映像のみから動作特徴と外観特徴の両方を学習するための教師なし映像表現学習について検討する。
動作と外観の両方をうまくモデル化するために、適切な自己指導タスクを構築することは困難である。
再生速度を知覚し、2つのビデオクリップ間の相対速度をラベルとして利用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T16:42:50Z) - Hierarchical Contrastive Motion Learning for Video Action Recognition [100.9807616796383]
本稿では,映像フレームから効果的な動き表現を抽出する自己教師型学習フレームワークである階層型コントラスト学習を提案する。
提案手法は,ネットワーク内の異なる抽象レベルに対応する動作特徴の階層構造を段階的に学習する。
私たちのモーション学習モジュールは軽量で柔軟性があり、様々なバックボーンネットワークに組み込むことができます。
論文 参考訳(メタデータ) (2020-07-20T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。