論文の概要: Adaptive Multimodal Person Recognition: A Robust Framework for Handling Missing Modalities
- arxiv url: http://arxiv.org/abs/2512.14961v1
- Date: Tue, 16 Dec 2025 22:59:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.804856
- Title: Adaptive Multimodal Person Recognition: A Robust Framework for Handling Missing Modalities
- Title(参考訳): アダプティブ・マルチモーダル・パーソナリティ認識 : 行方不明者への対処のためのロバスト・フレームワーク
- Authors: Aref Farhadipour, Teodora Vukovic, Volker Dellwo, Petr Motlicek, Srikanth Madikeri,
- Abstract要約: 本稿では,音声,顔,ジェスチャーのモダリティを統合した3モーダル人物識別フレームワークを提案する。
提案手法はマルチタスク学習を利用して各モータリティを独立に処理し,その後にクロスアテンションとゲート融合機構を付加する。
1、2つのモダリティが利用できない場合でも高い精度を保っていることを示す。
- 参考スコア(独自算出の注目度): 2.5472580243871623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Person recognition systems often rely on audio, visual, or behavioral cues, but real-world conditions frequently result in missing or degraded modalities. To address this challenge, we propose a Trimodal person identification framework that integrates voice, face, and gesture modalities, while remaining robust to modality loss. Our approach leverages multi-task learning to process each modality independently, followed by a cross-attention and gated fusion mechanisms to facilitate interaction across modalities. Moreover, a confidence-weighted fusion strategy dynamically adapts to missing and low-quality data, ensuring optimal classification even in Unimodal or Bimodal scenarios. We evaluate our method on CANDOR, a newly introduced interview-based multimodal dataset, which we benchmark for the first time. Our results demonstrate that the proposed Trimodal system achieves 99.18% Top-1 accuracy on person identification tasks, outperforming conventional Unimodal and late-fusion approaches. In addition, we evaluate our model on the VoxCeleb1 dataset as a benchmark and reach 99.92% accuracy in Bimodal mode. Moreover, we show that our system maintains high accuracy even when one or two modalities are unavailable, making it a robust solution for real-world person recognition applications. The code and data for this work are publicly available.
- Abstract(参考訳): 人物認識システムは、しばしば音声、視覚的、行動的な手がかりに依存するが、現実の状況は、しばしば欠落または劣化したモダリティをもたらす。
この課題に対処するために,声・顔・ジェスチャーのモダリティを統合しつつ,モダリティ損失に頑健な3モーダル人物識別フレームワークを提案する。
提案手法はマルチタスク学習を活用して各モーダルを独立に処理し,その後,モーダル間の相互作用を促進するためのクロスアテンションとゲート融合機構を付加する。
さらに、信頼度重み付き融合戦略は、欠落データや低品質データに動的に適応し、ユニモーダルやバイモーダルのシナリオにおいても最適な分類を保証する。
我々は,新たに導入されたインタビューベースのマルチモーダルデータセットであるCANDORについて評価し,初めてベンチマークを行った。
提案手法は,従来のユニモーダル・レイトフュージョン・アプローチよりも高い精度で,個人識別タスクにおいて99.18%のTop-1精度を実現していることを示す。
さらに、VoxCeleb1データセットのモデルをベンチマークとして評価し、バイモーダルモードで99.92%の精度を達成した。
さらに,本システムは,1~2つのモダリティが利用できない場合でも高い精度を維持し,現実の人物認識アプリケーションにとって堅牢なソリューションであることを示す。
この作業のコードとデータは公開されています。
関連論文リスト
- Robust Modality-incomplete Anomaly Detection: A Modality-instructive Framework with Benchmark [69.02666229531322]
モダリティ不完全産業異常検出(MIIAD)の先駆的研究を紹介する。
その結果,既存のMIAD手法はMIIADベンチでは性能が悪く,性能が著しく低下していることが判明した。
本稿では,新しい2段階のロバストモードアリティファジングと検出フレームwoRk(RADAR)を提案する。
論文 参考訳(メタデータ) (2024-10-02T16:47:55Z) - XTrack: Multimodal Training Boosts RGB-X Video Object Trackers [88.72203975896558]
マルチモーダルセンシングから得られる知識を効果的に共有することが重要である。
異なるモダリティにまたがる類似のサンプルは、他のものよりも多くの知識を共有できる。
提案手法は,現在のSOTAよりも平均+3%精度が向上したRGB-Xトラッカーである。
論文 参考訳(メタデータ) (2024-05-28T03:00:58Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Efficient Multimodal Transformer with Dual-Level Feature Restoration for
Robust Multimodal Sentiment Analysis [47.29528724322795]
マルチモーダルセンシング分析(MSA)が近年注目を集めている。
著しい進歩にもかかわらず、堅牢なMSAへの道にはまだ2つの大きな課題がある。
デュアルレベル特徴回復 (EMT-DLFR) を用いた高効率マルチモーダル変圧器 (Efficient Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2022-08-16T08:02:30Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Self-attention fusion for audiovisual emotion recognition with
incomplete data [103.70855797025689]
視覚的感情認識を応用したマルチモーダルデータ解析の問題点を考察する。
本稿では、生データから学習可能なアーキテクチャを提案し、その3つの変種を異なるモダリティ融合機構で記述する。
論文 参考訳(メタデータ) (2022-01-26T18:04:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。