論文の概要: A Unified Multimodal De- and Re-coupling Framework for RGB-D Motion
Recognition
- arxiv url: http://arxiv.org/abs/2211.09146v1
- Date: Wed, 16 Nov 2022 19:00:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 17:03:53.847074
- Title: A Unified Multimodal De- and Re-coupling Framework for RGB-D Motion
Recognition
- Title(参考訳): RGB-Dモーション認識のための統合型マルチモーダルデカップリングフレームワーク
- Authors: Benjia Zhou, Pichao Wang, Jun Wan, Yanyan Liang and Fan Wang
- Abstract要約: そこで本稿では,MixUp の補足として機能する ShuffleMix という新しいビデオデータ拡張手法を提案する。
第2に、ビデオ表現学習において、UMDRと呼ばれる統一マルチモーダルデカップリングおよびマルチステージリカップリングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 24.02488085447691
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motion recognition is a promising direction in computer vision, but the
training of video classification models is much harder than images due to
insufficient data and considerable parameters. To get around this, some works
strive to explore multimodal cues from RGB-D data. Although improving motion
recognition to some extent, these methods still face sub-optimal situations in
the following aspects: (i) Data augmentation, i.e., the scale of the RGB-D
datasets is still limited, and few efforts have been made to explore novel data
augmentation strategies for videos; (ii) Optimization mechanism, i.e., the
tightly space-time-entangled network structure brings more challenges to
spatiotemporal information modeling; And (iii) cross-modal knowledge fusion,
i.e., the high similarity between multimodal representations caused to
insufficient late fusion. To alleviate these drawbacks, we propose to improve
RGB-D-based motion recognition both from data and algorithm perspectives in
this paper. In more detail, firstly, we introduce a novel video data
augmentation method dubbed ShuffleMix, which acts as a supplement to MixUp, to
provide additional temporal regularization for motion recognition. Secondly, a
Unified Multimodal De-coupling and multi-stage Re-coupling framework, termed
UMDR, is proposed for video representation learning. Finally, a novel
cross-modal Complement Feature Catcher (CFCer) is explored to mine potential
commonalities features in multimodal information as the auxiliary fusion
stream, to improve the late fusion results. The seamless combination of these
novel designs forms a robust spatiotemporal representation and achieves better
performance than state-of-the-art methods on four public motion datasets.
Specifically, UMDR achieves unprecedented improvements of +4.5% on the Chalearn
IsoGD dataset.Our code is available at
https://github.com/zhoubenjia/MotionRGBD-PAMI.
- Abstract(参考訳): 動き認識はコンピュータビジョンにおいて有望な方向であるが、映像分類モデルの訓練は、不十分なデータとかなりのパラメータのため、画像よりもはるかに難しい。
これを回避するために、RGB-Dデータからマルチモーダルキューを探究する研究もある。
動作認識をある程度改善したものの、以下の点において準最適の状況に直面している。
(i)データ拡張、すなわち、rgb-dデータセットの規模は依然として限られており、ビデオの新しいデータ拡張戦略を探求する努力はほとんど行われていない。
(ii)最適化機構、すなわち、密接な時空絡み合いネットワーク構造は、時空間情報モデリングにより多くの課題をもたらす。
(三)クロスモーダル知識融合、すなわち、遅発核融合の不足に起因する多モーダル表現の間の高い類似性。
これらの欠点を解消するため,本論文では,rgb-dに基づくモーション認識を,データとアルゴリズムの両方の観点から改善する。
より詳しくは、まず、mixupの補足として動作するshufflemixと呼ばれる新しいビデオデータ拡張手法を導入し、モーション認識に新たな時間的正規化を提供する。
第2に、ビデオ表現学習において、UMDRと呼ばれる統一マルチモーダルデカップリングおよびマルチステージリカップリングフレームワークを提案する。
最後に,CFCer (クロスモーダル補足型キャッチャー) を, 補助核融合流として多モーダル情報に共通する可能性を探り, 後期核融合結果を改善する。
これらの新しいデザインのシームレスな組み合わせは、頑健な時空間表現を形成し、4つの公開運動データセットの最先端手法よりも優れたパフォーマンスを達成する。
具体的には、umdrはchalearn isogdデータセットで前例のない4.5%の改善を達成している。
関連論文リスト
- Multi-Dimensional Refinement Graph Convolutional Network with Robust
Decouple Loss for Fine-Grained Skeleton-Based Action Recognition [19.031036881780107]
本稿では,CVSTA(Channel-Variable Space-Temporal Attention)と呼ばれるフレキシブルアテンションブロックを提案する。
CVSTAに基づくMDR-GCN(Multi-dimensional Refinement Graph Convolutional Network)を構築し,チャネルレベル,ジョイントレベル,フレームレベルの特徴の識別を改善する。
さらに,CVSTAの効果を著しく向上し,騒音の影響を低減させるロバスト・デデュプル・ロス(RDL)を提案する。
論文 参考訳(メタデータ) (2023-06-27T09:23:36Z) - IMKGA-SM: Interpretable Multimodal Knowledge Graph Answer Prediction via
Sequence Modeling [3.867363075280544]
マルチモーダル知識グラフリンク予測は,マルチモーダルデータに対するリンク予測タスクの精度と効率を向上させることを目的としている。
シーケンスモデリングによる解釈可能なマルチモーダル知識グラフアンサー予測(IMKGA-SM)の開発
モデルは、異なるサイズのマルチモーダルリンク予測データセットに基づいて、SOTAベースラインよりもはるかに優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-01-06T10:08:11Z) - Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based
Motion Recognition [62.46544616232238]
従来の動作認識手法は、密結合した多時間表現によって有望な性能を実現している。
本稿では,RGB-D に基づく動作認識において引き起こされた表現を分離し,再分離することを提案する。
論文 参考訳(メタデータ) (2021-12-16T18:59:47Z) - RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-15T12:31:27Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z) - Learning Selective Mutual Attention and Contrast for RGB-D Saliency
Detection [145.4919781325014]
クロスモーダル情報を効果的に融合する方法は、RGB-Dの有能な物体検出の鍵となる問題である。
多くのモデルは特徴融合戦略を用いるが、低次点対点融合法によって制限されている。
本研究では,異なるモダリティから注目とコンテキストを融合させることにより,新たな相互注意モデルを提案する。
論文 参考訳(メタデータ) (2020-10-12T08:50:10Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z) - Skeleton Focused Human Activity Recognition in RGB Video [11.521107108725188]
骨格とRGBの両モードを併用したマルチモーダル特徴融合モデルを提案する。
モデルは、エンドツーエンドの方法で、バックプロパゲーションアルゴリズムによって個別または均一にトレーニングすることができる。
論文 参考訳(メタデータ) (2020-04-29T06:40:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。