Fugu-MT 論文翻訳(概要): A Multi-Stage Adaptive Feature Fusion Neural Network for Multimodal Gait Recognition

論文の概要: A Multi-Stage Adaptive Feature Fusion Neural Network for Multimodal Gait Recognition

arxiv url: http://arxiv.org/abs/2312.14410v1
Date: Fri, 22 Dec 2023 03:25:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-25 16:14:26.772186
Title: A Multi-Stage Adaptive Feature Fusion Neural Network for Multimodal Gait Recognition
Title（参考訳）: マルチモーダル歩行認識のための多段適応型特徴融合ニューラルネットワーク
Authors: Shinan Zou and Jianbo Xiong and Chao Fan and Shiqi Yu and Jin Tang
Abstract要約: 多くの既存の歩行認識アルゴリズムは単調であり、少数のマルチモーダル歩行認識アルゴリズムは一度だけマルチモーダル融合を行う。特徴抽出プロセスの異なる段階において多段階の融合を行う多段階特徴融合戦略(MSFFS)を提案する。また,シルエットと骨格のセマンティックな関連性を考慮したAFFM(Adaptive Feature fusion Module)を提案する。
参考スコア（独自算出の注目度）: 15.080096318551346
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Gait recognition is a biometric technology that has received extensive attention. Most existing gait recognition algorithms are unimodal, and a few multimodal gait recognition algorithms perform multimodal fusion only once. None of these algorithms may fully exploit the complementary advantages of the multiple modalities. In this paper, by considering the temporal and spatial characteristics of gait data, we propose a multi-stage feature fusion strategy (MSFFS), which performs multimodal fusions at different stages in the feature extraction process. Also, we propose an adaptive feature fusion module (AFFM) that considers the semantic association between silhouettes and skeletons. The fusion process fuses different silhouette areas with their more related skeleton joints. Since visual appearance changes and time passage co-occur in a gait period, we propose a multiscale spatial-temporal feature extractor (MSSTFE) to learn the spatial-temporal linkage features thoroughly. Specifically, MSSTFE extracts and aggregates spatial-temporal linkages information at different spatial scales. Combining the strategy and modules mentioned above, we propose a multi-stage adaptive feature fusion (MSAFF) neural network, which shows state-of-the-art performance in many experiments on three datasets. Besides, MSAFF is equipped with feature dimensional pooling (FD Pooling), which can significantly reduce the dimension of the gait representations without hindering the accuracy. https://github.com/ShinanZou/MSAFF
Abstract（参考訳）: 歩行認識は生体計測技術であり、広く注目を集めている。多くの既存の歩行認識アルゴリズムは単調であり、少数のマルチモーダル歩行認識アルゴリズムは一度だけマルチモーダル融合を行う。これらのアルゴリズムは、複数のモダリティの相補的な利点を完全に活用することができない。本稿では,歩行データの時間的・空間的特性を考慮して,特徴抽出過程において異なる段階のマルチモーダル融合を行う多段特徴融合戦略(msffs)を提案する。また,シルエットと骨格のセマンティックな関連性を考慮したAFFM(Adaptive Feature fusion Module)を提案する。融合プロセスは、より関連する骨格関節と異なるシルエット領域を融合する。歩行時間における視覚的外見の変化と時間経過が共起しているため,空間時空間特徴抽出器(MSSTFE)を提案する。特に、MSSTFEは異なる空間スケールで時空間リンク情報を抽出し集約する。上記の戦略とモジュールを組み合わせることで,多段階適応機能融合(MSAFF)ニューラルネットワークを提案する。さらに、MSAFFは特徴次元プーリング(FDプール)を備えており、精度を損なうことなく歩行表現の寸法を大幅に削減することができる。 https://github.com/ShinanZou/MSAFF

関連論文リスト

Unity is Strength: Unifying Convolutional and Transformeral Features for Better Person Re-Identification [60.9670254833103]
人物再識別(ReID)は、重複しないカメラを通して特定の人物を回収することを目的としている。画像に基づく人物ReIDのためのCNNとトランスフォーマーの強みを統合するために,FusionReIDと呼ばれる新しい融合フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-23T03:19:19Z)
Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文参考訳（メタデータ） (2024-10-29T19:28:41Z)
Masked Graph Learning with Recurrent Alignment for Multimodal Emotion Recognition in Conversation [12.455034591553506]
対話におけるマルチモーダル感情認識(MERC)は、世論監視、インテリジェントな対話ロボット、その他の分野に適用することができる。従来の作業では、マルチモーダル融合前のモーダル間アライメントプロセスとモーダル内ノイズ情報を無視していた。我々は,MGLRA(Masked Graph Learning with Recursive Alignment)と呼ばれる新しい手法を開発し,この問題に対処した。
論文参考訳（メタデータ） (2024-07-23T02:23:51Z)
Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。 We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文参考訳（メタデータ） (2024-04-14T05:28:46Z)
Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。 5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文参考訳（メタデータ） (2023-08-24T03:50:37Z)
Learning multi-domain feature relation for visible and Long-wave Infrared image patch matching [39.88037892637296]
我々は、VL-CMIMと呼ばれる最大の可視・長波長赤外線画像パッチマッチングデータセットを提示する。さらに,マルチドメイン特徴関連学習ネットワーク(MD-FRN)を提案する。
論文参考訳（メタデータ） (2023-08-09T11:23:32Z)
Exploring Multi-Timestep Multi-Stage Diffusion Features for Hyperspectral Image Classification [16.724299091453844]
拡散に基づくHSI分類法は,手動で選択した単一段階の特徴のみを利用する。 MTMSDと呼ばれる,HSI分類のための多段階多段階拡散機能を初めて検討した,拡散に基づく新しい特徴学習フレームワークを提案する。提案手法は,HSI分類の最先端手法,特にヒューストン2018データセットより優れている。
論文参考訳（メタデータ） (2023-06-15T08:56:58Z)
Interactive Multi-scale Fusion of 2D and 3D Features for Multi-object Tracking [23.130490413184596]
我々は、PointNet++を導入し、ポイントクラウドのマルチスケールのディープ表現を取得し、提案したInteractive Feature Fusionに適応させる。提案手法は,KITTIベンチマークにおいて,マルチスケールな特徴融合を使わずに優れた性能を実現し,他の手法よりも優れる。
論文参考訳（メタデータ） (2022-03-30T13:00:27Z)
Learning Deep Multimodal Feature Representation with Asymmetric Multi-layer Fusion [63.72912507445662]
本稿では,マルチモーダルな特徴を複数の層に融合する,コンパクトで効果的なフレームワークを提案する。我々は、エンコーダ内のモダリティ固有のバッチ正規化層を単に維持するだけで、共有シングルネットワーク内でマルチモーダル機能を学習できることを検証する。次に,マルチモーダルな特徴を段階的に活用できる双方向多層融合方式を提案する。
論文参考訳（メタデータ） (2021-08-11T03:42:13Z)
EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文参考訳（メタデータ） (2021-06-21T10:47:26Z)
Multidomain Multimodal Fusion For Human Action Recognition Using Inertial Sensors [1.52292571922932]
入力モダリティの異なる領域から相補的特徴と相補的特徴を抽出する新しいマルチドメイン多モード融合フレームワークを提案する。異なる領域の特徴は畳み込みニューラルネットワーク(CNN)によって抽出され、続いてCCF(Canonical correlation based Fusion)によって融合され、人間の行動認識の精度が向上する。
論文参考訳（メタデータ） (2020-08-22T03:46:12Z)
Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文参考訳（メタデータ） (2020-08-21T10:45:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。