論文の概要: Cross-view Action Recognition via Contrastive View-invariant
Representation
- arxiv url: http://arxiv.org/abs/2305.01733v1
- Date: Tue, 2 May 2023 19:04:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 16:48:46.883283
- Title: Cross-view Action Recognition via Contrastive View-invariant
Representation
- Title(参考訳): コントラストビュー不変表現によるクロスビュー動作認識
- Authors: Yuexi Zhang, Dan Luo, Balaji Sundareshan, Octavia Camps, Mario Sznaier
- Abstract要約: クロスビュー行動認識は、これまで目に見えない視点から観察された人間の行動を認識しようとする。
RGBビデオ,3Dスケルトンデータ,あるいはその両方から不変機能を学ぶためのフレームワークを提案する。
提案手法は、入力モダリティ間の類似した性能レベルを達成するために、現在の最先端技術よりも優れている。
- 参考スコア(独自算出の注目度): 6.396888111615932
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Cross view action recognition (CVAR) seeks to recognize a human action when
observed from a previously unseen viewpoint. This is a challenging problem
since the appearance of an action changes significantly with the viewpoint.
Applications of CVAR include surveillance and monitoring of assisted living
facilities where is not practical or feasible to collect large amounts of
training data when adding a new camera. We present a simple yet efficient CVAR
framework to learn invariant features from either RGB videos, 3D skeleton data,
or both. The proposed approach outperforms the current state-of-the-art
achieving similar levels of performance across input modalities: 99.4% (RGB)
and 99.9% (3D skeletons), 99.4% (RGB) and 99.9% (3D Skeletons), 97.3% (RGB),
and 99.2% (3D skeletons), and 84.4%(RGB) for the N-UCLA, NTU-RGB+D 60,
NTU-RGB+D 120, and UWA3DII datasets, respectively.
- Abstract(参考訳): クロスビューアクション認識(CVAR)は、これまで目に見えない視点から観察された人間の行動を認識する。
アクションの出現は視点によって大きく変化するため、これは難しい問題である。
CVARの応用には、新しいカメラを追加する際に大量のトレーニングデータを収集できない、あるいは実現不可能な、補助施設の監視と監視が含まれる。
RGBビデオ, 3Dスケルトンデータ, あるいはその両方から不変性を学習するための, 単純かつ効率的なCVARフレームワークを提案する。
提案手法は, 99.4%(RGB), 99.9%(RGB), 99.4%(RGB), 99.9%(3Dスケルトン), 97.3%(RGB), 99.2%(3Dスケルトン), 84.4%(RGB), N-UCLA, NTU-RGB+D 60, NTU-RGB+D 120, UWA3DIIデータセットのそれぞれにおいて, 同様の性能を達成している。
関連論文リスト
- Handling Geometric Domain Shifts in Semantic Segmentation of Surgical RGB and Hyperspectral Images [67.66644395272075]
本稿では,幾何学的アウト・オブ・ディストリビューションデータに直面する場合の,最先端のセマンティックセマンティックセマンティクスモデルの最初の解析を行う。
本稿では, 汎用性を高めるために, 有機移植(Organ Transplantation)と呼ばれる拡張技術を提案する。
我々の拡張技術は、RGBデータに対して最大67%、HSIデータに対して90%のSOAモデル性能を改善し、実際のOODテストデータに対して、分配内パフォーマンスのレベルでのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-27T19:13:15Z) - Confidence-Aware RGB-D Face Recognition via Virtual Depth Synthesis [48.59382455101753]
2D顔認証は、照明、閉塞、ポーズの変化により、制約のない環境において課題に遭遇する。
近年の研究では、深度情報を組み込んだRGB-D顔認証に焦点が当てられている。
本研究では,まず,深度モデル事前学習のための3次元Morphable Modelsによって生成された多様な深度データセットを構築する。
そこで本研究では,手軽に利用できるRGBと深度モデルを利用したドメイン非依存の事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-11T09:12:24Z) - DVANet: Disentangling View and Action Features for Multi-View Action
Recognition [56.283944756315066]
本稿では,学習した行動表現を映像中の視覚関連情報から切り離すための多視点行動認識手法を提案する。
本モデルとトレーニング方法は,4つの多視点行動認識データセットにおいて,他のユニモーダルモデルよりも有意に優れている。
論文 参考訳(メタデータ) (2023-12-10T01:19:48Z) - Implicit Event-RGBD Neural SLAM [54.74363487009845]
神経性SLAMは近年顕著な進歩を遂げている。
既存の手法は、非理想的なシナリオにおいて重大な課題に直面します。
本稿では,最初のイベントRGBD暗黙的ニューラルSLAMフレームワークであるEN-SLAMを提案する。
論文 参考訳(メタデータ) (2023-11-18T08:48:58Z) - Fine-grained Object Categorization for Service Robots [0.0]
きめ細かい視覚分類は依然として難しい問題である。
微粒なRGBデータセットでは、照明の影響や情報不足などの欠陥が持続する。
我々は、視覚変換器(ViT)と畳み込みニューラルネットワーク(CNN)に基づく、新しい混合多モードアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-03T13:34:11Z) - A High-Accuracy Unsupervised Person Re-identification Method Using
Auxiliary Information Mined from Datasets [53.047542904329866]
マルチモーダルな特徴学習のためのデータセットから抽出した補助情報を利用する。
本稿では,Restricted Label Smoothing Cross Entropy Loss (RLSCE), Weight Adaptive Triplet Loss (WATL), Dynamic Training Iterations (DTI)の3つの効果的なトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-05-06T10:16:18Z) - Unsupervised View-Invariant Human Posture Representation [28.840986167408037]
本研究では、2次元画像からビュー不変な3次元ポーズ表現を抽出することを学ぶ新しい教師なしアプローチを提案する。
本モデルは,同時フレーム間の人間のポーズの内在的なビュー不変性を活用することで訓練される。
RGB画像と深度画像の非教師なしのクロスビュー動作分類精度の改善を示す。
論文 参考訳(メタデータ) (2021-09-17T19:23:31Z) - RGB2Hands: Real-Time Tracking of 3D Hand Interactions from Monocular RGB
Video [76.86512780916827]
本稿では,1台のRGBカメラによる骨格ポーズのモーションキャプチャと手の表面形状をリアルタイムに計測する手法を提案する。
RGBデータの本質的な深さの曖昧さに対処するために,我々は新しいマルチタスクCNNを提案する。
RGBの片手追跡と3D再構築パイプラインの個々のコンポーネントを実験的に検証した。
論文 参考訳(メタデータ) (2021-06-22T12:53:56Z) - Skeleton Focused Human Activity Recognition in RGB Video [11.521107108725188]
骨格とRGBの両モードを併用したマルチモーダル特徴融合モデルを提案する。
モデルは、エンドツーエンドの方法で、バックプロパゲーションアルゴリズムによって個別または均一にトレーニングすることができる。
論文 参考訳(メタデータ) (2020-04-29T06:40:42Z) - Infrared and 3D skeleton feature fusion for RGB-D action recognition [0.30458514384586394]
本稿では,スケルトンと赤外線データを組み合わせたモジュールネットワークを提案する。
2D畳み込みネットワーク(CNN)は、骨格データから特徴を抽出するポーズモジュールとして使用される。
3D CNNは、ビデオから視覚的手がかりを抽出する赤外線モジュールとして使用される。
論文 参考訳(メタデータ) (2020-02-28T17:42:53Z) - VMRFANet:View-Specific Multi-Receptive Field Attention Network for
Person Re-identification [3.1498833540989413]
本稿では,様々な大きさのフィルタを用いて,情報画素に注目するネットワークを支援するMRFA(Multi-Receptive Field attention)モジュールを提案する。
本稿では,ビュー条件の変動に対処するためのアテンションモジュールを誘導するビュー固有メカニズムを提案する。
本手法は,市場におけるランク-1/mAPの95.5% / 88.1%,デュークMTMC-reIDの88.9% / 80.0%,CUHK03ラベル付きデータセットの81.1% / 78.8%,CUHK03検出データセットの78.9% / 75.3%を達成している。
論文 参考訳(メタデータ) (2020-01-21T06:31:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。