論文の概要: DVANet: Disentangling View and Action Features for Multi-View Action
Recognition
- arxiv url: http://arxiv.org/abs/2312.05719v1
- Date: Sun, 10 Dec 2023 01:19:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 19:14:10.421996
- Title: DVANet: Disentangling View and Action Features for Multi-View Action
Recognition
- Title(参考訳): dvanet:マルチビューアクション認識のためのビューとアクションの分離
- Authors: Nyle Siddiqui, Praveen Tirupattur, Mubarak Shah
- Abstract要約: 本稿では,学習した行動表現を映像中の視覚関連情報から切り離すための多視点行動認識手法を提案する。
本モデルとトレーニング方法は,4つの多視点行動認識データセットにおいて,他のユニモーダルモデルよりも有意に優れている。
- 参考スコア(独自算出の注目度): 56.283944756315066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we present a novel approach to multi-view action recognition
where we guide learned action representations to be separated from
view-relevant information in a video. When trying to classify action instances
captured from multiple viewpoints, there is a higher degree of difficulty due
to the difference in background, occlusion, and visibility of the captured
action from different camera angles. To tackle the various problems introduced
in multi-view action recognition, we propose a novel configuration of learnable
transformer decoder queries, in conjunction with two supervised contrastive
losses, to enforce the learning of action features that are robust to shifts in
viewpoints. Our disentangled feature learning occurs in two stages: the
transformer decoder uses separate queries to separately learn action and view
information, which are then further disentangled using our two contrastive
losses. We show that our model and method of training significantly outperforms
all other uni-modal models on four multi-view action recognition datasets: NTU
RGB+D, NTU RGB+D 120, PKU-MMD, and N-UCLA. Compared to previous RGB works, we
see maximal improvements of 1.5\%, 4.8\%, 2.2\%, and 4.8\% on each dataset,
respectively.
- Abstract(参考訳): 本研究では,映像中の映像関連情報から,学習した行動表現を分離するための多視点行動認識手法を提案する。
複数の視点からキャプチャされたアクションインスタンスを分類しようとすると、異なるカメラアングルからキャプチャされたアクションの背景、オクルージョン、可視性の違いにより、より困難度が高くなる。
マルチビュー動作認識で導入された様々な問題に対処するため,学習可能なトランスフォーマーデコーダクエリを2つの教師付きコントラスト損失とともに新たに構成し,視点の変化に頑健な動作特徴の学習を行う。
トランスフォーマーデコーダは、別々のクエリを使用して、アクションとビュー情報を分離して学習します。
我々は,NTU RGB+D,NTU RGB+D 120,PKU-MMD,N-UCLAの4つの多視点行動認識データセットにおいて,他のユニモーダルモデルよりも有意に優れていることを示す。
従来のRGBと比較すると、各データセットでそれぞれ1.5\%、4.8\%、2.2\%、および4.8\%の最大改善が見られる。
関連論文リスト
- DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Monocular Dynamic View Synthesis: A Reality Check [45.438135525140154]
本稿では,実測処理と既存の実験プロトコルの相違点を示す。
我々は、入力キャプチャーシーケンスに存在するマルチビュー信号の量を定量化するために、効果的なマルチビュー因子(EMF)を定義する。
また,より多様な実生活の変形シーケンスを含む新しいiPhoneデータセットを提案する。
論文 参考訳(メタデータ) (2022-10-24T17:58:28Z) - Multi-dataset Training of Transformers for Robust Action Recognition [75.5695991766902]
動作認識のための複数のデータセットをうまく一般化することを目的として,ロバストな特徴表現の課題について検討する。
本稿では、情報損失と投影損失という2つの新しい損失項を設計した、新しいマルチデータセットトレーニングパラダイムであるMultiTrainを提案する。
本研究では,Kineetics-400,Kineetics-700,Moments-in-Time,Activitynet,Some-something-v2の5つの課題データセットに対して,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2022-09-26T01:30:43Z) - Self-Supervised Video Representation Learning with Motion-Contrastive
Perception [13.860736711747284]
モーションコントラスト知覚ネットワーク(MCPNet)
MCPNetは、MIP(Motion Information Perception)とCIP(Contrastive Instance Perception)の2つのブランチから構成される。
本手法は,現在最先端の視覚のみによる自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-10T05:34:46Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z) - Memory-augmented Dense Predictive Coding for Video Representation
Learning [103.69904379356413]
本稿では,新しいアーキテクチャと学習フレームワーク Memory-augmented Predictive Coding (MemDPC) を提案する。
本稿では、RGBフレームからの視覚のみの自己教師付きビデオ表現学習や、教師なし光学フローからの学習、あるいはその両方について検討する。
いずれの場合も、トレーニングデータの桁数が桁違いに少ない他のアプローチに対して、最先端または同等のパフォーマンスを示す。
論文 参考訳(メタデータ) (2020-08-03T17:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。