論文の概要: LiCAF: LiDAR-Camera Asymmetric Fusion for Gait Recognition
- arxiv url: http://arxiv.org/abs/2406.12355v1
- Date: Tue, 18 Jun 2024 07:40:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 20:16:07.419757
- Title: LiCAF: LiDAR-Camera Asymmetric Fusion for Gait Recognition
- Title(参考訳): LiCAF: LiDAR-Camera による歩行認識のための非対称核融合
- Authors: Yunze Deng, Haijun Xiong, Bin Feng,
- Abstract要約: 本稿では,LiDAR-camera 融合のための新しいモダリティ感受性ネットワーク LiCAF を提案する。
本稿では,非対称なクロスモーダルチャネル注意(ACCA)とインターラクト・クロスモーダル時間モデリング(ICTM)を提案する。
本手法は,SUSTech1Kデータセットの最先端性能(ランク1で93.9%,ランク5で98.8%)を達成する。
- 参考スコア(独自算出の注目度): 1.585824200215491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gait recognition is a biometric technology that identifies individuals by using walking patterns. Due to the significant achievements of multimodal fusion in gait recognition, we consider employing LiDAR-camera fusion to obtain robust gait representations. However, existing methods often overlook intrinsic characteristics of modalities, and lack fine-grained fusion and temporal modeling. In this paper, we introduce a novel modality-sensitive network LiCAF for LiDAR-camera fusion, which employs an asymmetric modeling strategy. Specifically, we propose Asymmetric Cross-modal Channel Attention (ACCA) and Interlaced Cross-modal Temporal Modeling (ICTM) for cross-modal valuable channel information selection and powerful temporal modeling. Our method achieves state-of-the-art performance (93.9% in Rank-1 and 98.8% in Rank-5) on the SUSTech1K dataset, demonstrating its effectiveness.
- Abstract(参考訳): 歩行認識は歩行パターンを用いて個人を識別する生体計測技術である。
歩行認識におけるマルチモーダルフュージョンの顕著な成果から,ロバストな歩行表現を得るためにLiDAR-cameraフュージョンを利用することを検討する。
しかし、既存の手法はしばしばモダリティの本質的な特性を見落とし、微細な融合や時間的モデリングを欠いている。
本稿では,非対称なモデリング手法を用いたLiDAR-カメラ融合のための新しいモダリティ感受性ネットワークLiCAFを提案する。
具体的には,非対称なクロスモーダルチャネル注意(ACCA)とインターラクト・クロスモーダル時間モデリング(ICTM)を提案する。
本手法は,SUSTech1Kデータセット上での最先端性能(ランク1で93.9%,ランク5で98.8%)を実現し,その有効性を示した。
関連論文リスト
- AlterMOMA: Fusion Redundancy Pruning for Camera-LiDAR Fusion Models with Alternative Modality Masking [13.288801778372546]
カメラ-LiDAR融合モデルは自律走行における認識性能を著しく向上させる。
単一モードの事前訓練カメラとLiDARのバックボーンをカメラ-LiDAR融合モデルに直接ロードすることは、モダリティにまたがる同様の機能冗長性をもたらすと我々は主張する。
本稿では,各モードに代替マスキングを適用し,冗長パラメータを識別する,新規なモダリティ・マスキング・プルーニング・フレームワーク(AlterMOMA)を提案する。
論文 参考訳(メタデータ) (2024-09-26T10:57:02Z) - Leveraging Weak Cross-Modal Guidance for Coherence Modelling via Iterative Learning [66.28872204574648]
クロスモーダル・コヒーレンス・モデリングは、知的なシステムが情報を整理し構造化するのに不可欠である。
クロスモーダル・コヒーレンス・モデリングに関するこれまでの研究は、目標モーダルのコヒーレンス回復を支援するために、他のモーダルからの順序情報を活用することを試みた。
本報告では,コヒーレンシーに金のラベルを付けることなく,クロスモーダルガイダンスを活用する新しい手法について検討する。
論文 参考訳(メタデータ) (2024-08-01T06:04:44Z) - GaitMA: Pose-guided Multi-modal Feature Fusion for Gait Recognition [26.721242606715354]
歩行認識は、歩行パターンを通して人間の身元を認識する生体計測技術である。
我々は、Gait Multi-model Aggregation Network (GaitMA)と呼ばれる新しい歩行認識フレームワークを提案する。
まず, 2つのCNN特徴抽出器を用いて, シルエットと骨格の特徴を抽出した。
論文 参考訳(メタデータ) (2024-07-20T09:05:17Z) - Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Towards Efficient Information Fusion: Concentric Dual Fusion Attention Based Multiple Instance Learning for Whole Slide Images [2.428210413498989]
本稿では,CDFA-MIL(Concentric Dual Fusion Attention-MIL)フレームワークを紹介する。
CDFA-MILは、同心パッチを用いて、ポイント・ツー・ゾーン・アテンションとポイント・ツー・ポイント・コンセントリック・アテンションを組み合わせたものである。
そのアプリケーションは例外的な性能を示しており、既存のMILメソッドの精度と、著名なデータセットのF1スコアを大きく上回っている。
論文 参考訳(メタデータ) (2024-03-21T12:23:29Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Cross-BERT for Point Cloud Pretraining [61.762046503448936]
我々はクロスモーダルなBERTスタイルの自己教師型学習パラダイムであるCross-BERTを提案する。
不規則な点雲とスパースな点雲の事前訓練を容易にするために,2つの自己教師型タスクを設計し,相互モーダル相互作用を促進させる。
本研究は,3Dポイントクラウド表現の強化とBERTのモダリティ間の伝達能力を高めるために,クロスモーダルな2D知識を活用することの有効性を強調した。
論文 参考訳(メタデータ) (2023-12-08T08:18:12Z) - Unifying Flow, Stereo and Depth Estimation [121.54066319299261]
本稿では3つの動作と3次元知覚タスクのための統一的な定式化とモデルを提案する。
これら3つのタスクを、統一された高密度対応マッチング問題として定式化する。
我々のモデルは、モデルアーキテクチャとパラメータがタスク間で共有されているため、自然にクロスタスク転送を可能にします。
論文 参考訳(メタデータ) (2022-11-10T18:59:54Z) - A cross-modal fusion network based on self-attention and residual
structure for multimodal emotion recognition [7.80238628278552]
マルチモーダル感情認識のための自己注意構造と残像構造(CFN-SR)に基づく新たなクロスモーダル融合ネットワークを提案する。
提案手法の有効性を検証するため,RAVDESSデータセットを用いて実験を行った。
実験結果から,提案したCFN-SRは最先端技術を実現し,精度が75.76%,パラメータが26.30Mであることが確認された。
論文 参考訳(メタデータ) (2021-11-03T12:24:03Z) - Two Headed Dragons: Multimodal Fusion and Cross Modal Transactions [14.700807572189412]
本稿では,HSIとLiDARの新たな融合法を提案する。
このモデルは、HSIとLiDARのクロスキー値ペアを利用するスタックされたオートエンコーダで構成されている。
我々はヒューストン(データフュージョン・コンテスト - 2013)とMUUFLガルフポートのデータセットで実験を行い、競争力のある結果を得た。
論文 参考訳(メタデータ) (2021-07-24T11:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。