論文の概要: A Multi-Stage Adaptive Feature Fusion Neural Network for Multimodal Gait
Recognition
- arxiv url: http://arxiv.org/abs/2312.14410v1
- Date: Fri, 22 Dec 2023 03:25:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 16:14:26.772186
- Title: A Multi-Stage Adaptive Feature Fusion Neural Network for Multimodal Gait
Recognition
- Title(参考訳): マルチモーダル歩行認識のための多段適応型特徴融合ニューラルネットワーク
- Authors: Shinan Zou and Jianbo Xiong and Chao Fan and Shiqi Yu and Jin Tang
- Abstract要約: 多くの既存の歩行認識アルゴリズムは単調であり、少数のマルチモーダル歩行認識アルゴリズムは一度だけマルチモーダル融合を行う。
特徴抽出プロセスの異なる段階において多段階の融合を行う多段階特徴融合戦略(MSFFS)を提案する。
また,シルエットと骨格のセマンティックな関連性を考慮したAFFM(Adaptive Feature fusion Module)を提案する。
- 参考スコア(独自算出の注目度): 15.080096318551346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gait recognition is a biometric technology that has received extensive
attention. Most existing gait recognition algorithms are unimodal, and a few
multimodal gait recognition algorithms perform multimodal fusion only once.
None of these algorithms may fully exploit the complementary advantages of the
multiple modalities. In this paper, by considering the temporal and spatial
characteristics of gait data, we propose a multi-stage feature fusion strategy
(MSFFS), which performs multimodal fusions at different stages in the feature
extraction process. Also, we propose an adaptive feature fusion module (AFFM)
that considers the semantic association between silhouettes and skeletons. The
fusion process fuses different silhouette areas with their more related
skeleton joints. Since visual appearance changes and time passage co-occur in a
gait period, we propose a multiscale spatial-temporal feature extractor
(MSSTFE) to learn the spatial-temporal linkage features thoroughly.
Specifically, MSSTFE extracts and aggregates spatial-temporal linkages
information at different spatial scales. Combining the strategy and modules
mentioned above, we propose a multi-stage adaptive feature fusion (MSAFF)
neural network, which shows state-of-the-art performance in many experiments on
three datasets. Besides, MSAFF is equipped with feature dimensional pooling (FD
Pooling), which can significantly reduce the dimension of the gait
representations without hindering the accuracy.
https://github.com/ShinanZou/MSAFF
- Abstract(参考訳): 歩行認識は生体計測技術であり、広く注目を集めている。
多くの既存の歩行認識アルゴリズムは単調であり、少数のマルチモーダル歩行認識アルゴリズムは一度だけマルチモーダル融合を行う。
これらのアルゴリズムは、複数のモダリティの相補的な利点を完全に活用することができない。
本稿では,歩行データの時間的・空間的特性を考慮して,特徴抽出過程において異なる段階のマルチモーダル融合を行う多段特徴融合戦略(msffs)を提案する。
また,シルエットと骨格のセマンティックな関連性を考慮したAFFM(Adaptive Feature fusion Module)を提案する。
融合プロセスは、より関連する骨格関節と異なるシルエット領域を融合する。
歩行時間における視覚的外見の変化と時間経過が共起しているため,空間時空間特徴抽出器(MSSTFE)を提案する。
特に、MSSTFEは異なる空間スケールで時空間リンク情報を抽出し集約する。
上記の戦略とモジュールを組み合わせることで,多段階適応機能融合(MSAFF)ニューラルネットワークを提案する。
さらに、MSAFFは特徴次元プーリング(FDプール)を備えており、精度を損なうことなく歩行表現の寸法を大幅に削減することができる。
https://github.com/ShinanZou/MSAFF
関連論文リスト
- Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - Learning multi-domain feature relation for visible and Long-wave
Infrared image patch matching [39.88037892637296]
我々は、VL-CMIMと呼ばれる最大の可視・長波長赤外線画像パッチマッチングデータセットを提示する。
さらに,マルチドメイン特徴関連学習ネットワーク(MD-FRN)を提案する。
論文 参考訳(メタデータ) (2023-08-09T11:23:32Z) - A Unified Multimodal De- and Re-coupling Framework for RGB-D Motion
Recognition [24.02488085447691]
そこで本稿では,MixUp の補足として機能する ShuffleMix という新しいビデオデータ拡張手法を提案する。
第2に、ビデオ表現学習において、UMDRと呼ばれる統一マルチモーダルデカップリングおよびマルチステージリカップリングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-16T19:00:23Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - Weakly Aligned Feature Fusion for Multimodal Object Detection [52.15436349488198]
マルチモーダルデータはしばしば位置ずれの問題に悩まされます。つまり、イメージペアは厳密に一致していません。
この問題により、マルチモーダルな特徴を融合させることが難しくなり、畳み込みニューラルネットワーク(CNN)のトレーニングが難解になる。
本稿では、位置ずれ問題に対処するために、アライメント領域CNN(AR-CNN)と呼ばれる汎用マルチモーダル検出器を提案する。
論文 参考訳(メタデータ) (2022-04-21T02:35:23Z) - Interactive Multi-scale Fusion of 2D and 3D Features for Multi-object
Tracking [23.130490413184596]
我々は、PointNet++を導入し、ポイントクラウドのマルチスケールのディープ表現を取得し、提案したInteractive Feature Fusionに適応させる。
提案手法は,KITTIベンチマークにおいて,マルチスケールな特徴融合を使わずに優れた性能を実現し,他の手法よりも優れる。
論文 参考訳(メタデータ) (2022-03-30T13:00:27Z) - Specificity-preserving RGB-D Saliency Detection [103.3722116992476]
本稿では,RGB-Dサリエンシ検出のための特異性保存ネットワーク(SP-Net)を提案する。
2つのモダリティ特化ネットワークと共有学習ネットワークを採用し、個別および共有唾液マップを生成する。
6つのベンチマークデータセットの実験では、SP-Netは他の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-08-18T14:14:22Z) - Learning Deep Multimodal Feature Representation with Asymmetric
Multi-layer Fusion [63.72912507445662]
本稿では,マルチモーダルな特徴を複数の層に融合する,コンパクトで効果的なフレームワークを提案する。
我々は、エンコーダ内のモダリティ固有のバッチ正規化層を単に維持するだけで、共有シングルネットワーク内でマルチモーダル機能を学習できることを検証する。
次に,マルチモーダルな特徴を段階的に活用できる双方向多層融合方式を提案する。
論文 参考訳(メタデータ) (2021-08-11T03:42:13Z) - Multidomain Multimodal Fusion For Human Action Recognition Using
Inertial Sensors [1.52292571922932]
入力モダリティの異なる領域から相補的特徴と相補的特徴を抽出する新しいマルチドメイン多モード融合フレームワークを提案する。
異なる領域の特徴は畳み込みニューラルネットワーク(CNN)によって抽出され、続いてCCF(Canonical correlation based Fusion)によって融合され、人間の行動認識の精度が向上する。
論文 参考訳(メタデータ) (2020-08-22T03:46:12Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。