論文の概要: Collaboratively Self-supervised Video Representation Learning for Action Recognition
- arxiv url: http://arxiv.org/abs/2401.07584v2
- Date: Fri, 31 Jan 2025 14:33:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 13:59:07.268894
- Title: Collaboratively Self-supervised Video Representation Learning for Action Recognition
- Title(参考訳): 行動認識のための協調的自己指導型映像表現学習
- Authors: Jie Zhang, Zhifan Wan, Lanqing Hu, Stephen Lin, Shuzhe Wu, Shiguang Shan,
- Abstract要約: 我々は,行動認識に特化した協調的自己指導型ビデオ表現学習フレームワークを設計する。
提案手法は,複数の人気ビデオデータセット上での最先端性能を実現する。
- 参考スコア(独自算出の注目度): 54.92120002380786
- License:
- Abstract: Considering the close connection between action recognition and human pose estimation, we design a Collaboratively Self-supervised Video Representation (CSVR) learning framework specific to action recognition by jointly factoring in generative pose prediction and discriminative context matching as pretext tasks. Specifically, our CSVR consists of three branches: a generative pose prediction branch, a discriminative context matching branch, and a video generating branch. Among them, the first one encodes dynamic motion feature by utilizing Conditional-GAN to predict the human poses of future frames, and the second branch extracts static context features by contrasting positive and negative video feature and I-frame feature pairs. The third branch is designed to generate both current and future video frames, for the purpose of collaboratively improving dynamic motion features and static context features. Extensive experiments demonstrate that our method achieves state-of-the-art performance on multiple popular video datasets.
- Abstract(参考訳): 本研究では,行動認識と人間のポーズ推定の密接な関係を考慮し,行動認識に特化した協調的自己監督型ビデオ表現(CSVR)学習フレームワークを設計する。
具体的には、CSVRは、生成的ポーズ予測枝、識別的コンテキストマッチング枝、ビデオ生成枝の3つから構成される。
そのうち第1は条件付きGANを利用してダイナミックモーション特徴を符号化して将来のフレームの人間のポーズを予測し、第2のブランチは、正と負の映像特徴とIフレームの特徴対を対比して静的なコンテキスト特徴を抽出する。
第3のブランチは、動的モーション機能と静的コンテキスト機能を協調的に改善する目的で、現在のビデオフレームと将来のビデオフレームの両方を生成するように設計されている。
大規模な実験により,本手法は複数の人気ビデオデータセットの最先端性能を実現する。
関連論文リスト
- Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。
本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-10-21T07:44:44Z) - A Semantic and Motion-Aware Spatiotemporal Transformer Network for Action Detection [7.202931445597171]
本稿では,未編集映像の動作を検出する新しいネットワークを提案する。
このネットワークは、モーション対応2D位置符号化を利用して、ビデオフレーム内のアクションセマンティクスの位置を符号化する。
このアプローチは、4つの提案されたデータセット上で最先端のソリューションよりも優れています。
論文 参考訳(メタデータ) (2024-05-13T21:47:35Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Towards Tokenized Human Dynamics Representation [41.75534387530019]
我々は,ビデオの時間的パターンを自己監督的に分割し,クラスタ化する方法について検討した。
我々は、ケンドールのTauによるフレームワイド表現学習ステップと、正規化された相互情報と言語エントロピーによる語彙構築ステップを評価する。
AIST++とPKU-MMDデータセットでは、アクトンはいくつかのベースラインと比較して大幅にパフォーマンスが改善されている。
論文 参考訳(メタデータ) (2021-11-22T18:59:58Z) - Target Adaptive Context Aggregation for Video Scene Graph Generation [36.669700084337045]
本稿では,映像シーングラフ生成(VidSGG)の課題を扱う。
複雑な低レベルエンティティ追跡から関係予測のためのコンテキストモデリングを分離することにより,この課題に対する新しい Em 検出-追跡パラダイムを提案する。
論文 参考訳(メタデータ) (2021-08-18T12:46:28Z) - Visual Relationship Forecasting in Videos [56.122037294234865]
本稿では,視覚関係予測(Visual Relation Forecasting:VRF)というタスクをビデオに提示する。
Hフレームと対象オブジェクトのペアを与えられたVRFは、視覚的な証拠なしに次のTフレームに対する将来の相互作用を予測することを目的としている。
VRFタスクを評価するために,VRF-AGとVRF-VidORという2つのビデオデータセットを導入する。
論文 参考訳(メタデータ) (2021-07-02T16:43:19Z) - Contrastive Transformation for Self-supervised Correspondence Learning [120.62547360463923]
野生のラベルのない動画を用いて,視覚的対応の自己監督学習について検討する。
本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。
我々のフレームワークは、近年の視覚的タスクにおける自己監督型対応手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-09T14:05:06Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。