Fugu-MT 論文翻訳(概要): A Multimodal Sensor Fusion Framework Robust to Missing Modalities for Person Recognition

論文の概要: A Multimodal Sensor Fusion Framework Robust to Missing Modalities for Person Recognition

arxiv url: http://arxiv.org/abs/2210.10972v1
Date: Thu, 20 Oct 2022 02:39:48 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-21 15:45:00.317201
Title: A Multimodal Sensor Fusion Framework Robust to Missing Modalities for Person Recognition
Title（参考訳）: 人物認識のための欠落モードに頑健なマルチモーダルセンサ融合フレームワーク
Authors: Vijay John and Yasutomo Kawanishi
Abstract要約: 本稿では,オーディオ,可視,サーマルカメラを用いた新しい3モーダルセンサ融合フレームワークを提案する。 AVTNetと呼ばれる新しい潜伏埋め込みフレームワークは、複数の潜伏埋め込みを学ぶために提案されている。ベースラインアルゴリズムとの比較分析により,提案手法は認識精度を大幅に向上させることが示された。
参考スコア（独自算出の注目度）: 2.436681150766912
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Utilizing the sensor characteristics of the audio, visible camera, and thermal camera, the robustness of person recognition can be enhanced. Existing multimodal person recognition frameworks are primarily formulated assuming that multimodal data is always available. In this paper, we propose a novel trimodal sensor fusion framework using the audio, visible, and thermal camera, which addresses the missing modality problem. In the framework, a novel deep latent embedding framework, termed the AVTNet, is proposed to learn multiple latent embeddings. Also, a novel loss function, termed missing modality loss, accounts for possible missing modalities based on the triplet loss calculation while learning the individual latent embeddings. Additionally, a joint latent embedding utilizing the trimodal data is learnt using the multi-head attention transformer, which assigns attention weights to the different modalities. The different latent embeddings are subsequently used to train a deep neural network. The proposed framework is validated on the Speaking Faces dataset. A comparative analysis with baseline algorithms shows that the proposed framework significantly increases the person recognition accuracy while accounting for missing modalities.
Abstract（参考訳）: 音声、可視カメラ、サーマルカメラのセンサ特性を利用することで、人物認識の堅牢性を高めることができる。既存のマルチモーダルな人物認識フレームワークは、主にマルチモーダルなデータが常に利用可能であると仮定して定式化されている。本稿では, 音響, 可視, サーマルカメラを用いた新しい3モードセンサ融合フレームワークを提案する。このフレームワークでは、複数の潜伏埋め込みを学ぶために、AVTNetと呼ばれる新しい潜伏埋め込みフレームワークが提案されている。また、欠失モダリティ損失と呼ばれる新しい損失関数は、個々の潜在埋め込みを学習しながら三重項損失計算に基づいて欠失モダリティを説明できる。さらに, マルチヘッドアテンション変換器を用いて, 異なるモードにアテンション重みを割り当て, トリモーダルデータを利用したジョイントラテント埋め込みを学習する。異なる潜伏埋め込みはその後、ディープニューラルネットワークのトレーニングに使用される。提案フレームワークはspeaking facesデータセット上で検証される。ベースラインアルゴリズムとの比較分析により,提案手法は,モダリティの欠如を考慮しつつ,認識精度を大幅に向上させることを示した。

関連論文リスト

AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文参考訳（メタデータ） (2025-04-06T13:59:16Z)
GSPR: Multimodal Place Recognition Using 3D Gaussian Splatting for Autonomous Driving [9.023864430027333]
マルチモーダル位置認識はユニセンサーシステムの弱点を克服する能力によって注目を集めています本稿では,GSPRと呼ばれる3次元ガウス型マルチモーダル位置認識ニューラルネットワークを提案する。
論文参考訳（メタデータ） (2024-10-01T00:43:45Z)
Robust Multimodal 3D Object Detection via Modality-Agnostic Decoding and Proximity-based Modality Ensemble [15.173314907900842]
既存の3Dオブジェクト検出方法は、LiDARセンサーに大きく依存している。我々は,LiDAR過信頼問題に対処するためにMEFormerを提案する。我々のMEFormerは73.9% NDSと71.5% mAPの最先端性能を実現している。
論文参考訳（メタデータ） (2024-07-27T03:21:44Z)
Multi-channel Time Series Decomposition Network For Generalizable Sensor-Based Activity Recognition [2.024925013349319]
本稿では,MTSDNet(Multi- Channel Time Series Decomposition Network)を提案する。トレーニング可能なパラメータ化時間分解により、元の信号を複数の成分と三角関数の組み合わせに分解する。提案手法の精度と安定性を他の競合戦略と比較して予測する利点を示す。
論文参考訳（メタデータ） (2024-03-28T12:54:06Z)
A Study of Dropout-Induced Modality Bias on Robustness to Missing Video Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文参考訳（メタデータ） (2024-03-07T06:06:55Z)
Fully Differentiable Correlation-driven 2D/3D Registration for X-ray to CT Image Fusion [3.868072865207522]
画像ベース剛性2D/3Dレジストレーションは, 蛍光ガイド下外科手術において重要な技術である。デュアルブランチCNN変換器エンコーダを用いた完全微分型相関型ネットワークを提案する。組込み情報に基づく低周波特徴と高周波特徴の分解に対して相関型損失を提案する。
論文参考訳（メタデータ） (2024-02-04T14:12:51Z)
Multi-scale Semantic Correlation Mining for Visible-Infrared Person Re-Identification [19.49945790485511]
MSCMNetは、複数のスケールでセマンティック機能を包括的に活用するために提案されている。特徴抽出において、モダリティ情報損失を可能な限り小さくする。 SYSU-MM01、RegDB、 LLCMデータセットの大規模な実験により、提案したMSCMNetが最も精度が高いことを示す。
論文参考訳（メタデータ） (2023-11-24T10:23:57Z)
mmFUSION: Multimodal Fusion for 3D Objects Detection [18.401155770778757]
マルチセンサー融合は、自動運転システムにおける正確な3次元物体検出に不可欠である。本稿では,これらの課題を克服するために,新たな中間レベルマルチモーダル融合手法を提案する。 mmdetection3Dプロジェクトプラグインのコードは近く公開される予定だ。
論文参考訳（メタデータ） (2023-11-07T15:11:27Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
Inertial Hallucinations -- When Wearable Inertial Devices Start Seeing Things [82.15959827765325]
環境支援型生活(AAL)のためのマルチモーダルセンサフュージョンの新しいアプローチを提案する。我々は、標準マルチモーダルアプローチの2つの大きな欠点、限られた範囲のカバレッジ、信頼性の低下に対処する。我々の新しいフレームワークは、三重項学習によるモダリティ幻覚の概念を融合させ、異なるモダリティを持つモデルを訓練し、推論時に欠落したセンサーに対処する。
論文参考訳（メタデータ） (2022-07-14T10:04:18Z)
ReDFeat: Recoupling Detection and Description for Multimodal Feature Learning [51.07496081296863]
我々は、相互重み付け戦略による多モーダル特徴学習の検出と記述の独立した制約を再定義する。本研究では,大きな受容場を有し,学習可能な非最大抑制層を備える検出器を提案する。我々は,特徴マッチングと画像登録タスクにおける特徴量を評価するために,クロス可視,赤外線,近赤外,合成開口レーダ画像ペアを含むベンチマークを構築した。
論文参考訳（メタデータ） (2022-05-16T04:24:22Z)
Exploring Data Augmentation for Multi-Modality 3D Object Detection [82.9988604088494]
ポイントクラウドとイメージに基づくマルチモダリティメソッドは、ポイントクラウドのみを使用するアプローチよりも、わずかに良いか、時には悪いだけである。トランスフォーメーションフローと呼ばれるパイプラインを提案し、トランスフォーメーションのリバースとリプレイによってシングルモードとマルチモードのデータ拡張のギャップを埋める。また,本手法は第3回nuScenes検出チャレンジでPKL賞を受賞した。
論文参考訳（メタデータ） (2020-12-23T15:23:16Z)
Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文参考訳（メタデータ） (2020-08-21T10:45:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。