論文の概要: Purify-then-Align: Towards Robust Human Sensing under Modality Missing with Knowledge Distillation from Noisy Multimodal Teacher
- arxiv url: http://arxiv.org/abs/2604.05584v2
- Date: Wed, 08 Apr 2026 06:36:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 14:06:05.099928
- Title: Purify-then-Align: Towards Robust Human Sensing under Modality Missing with Knowledge Distillation from Noisy Multimodal Teacher
- Title(参考訳): パーフィケーション・アライメント--ノイズの多いマルチモーダル教師の知識蒸留によるモダリティ欠如下でのロバストなヒューマンセンシングを目指して-
- Authors: Pengcheng Weng, Yanyu Qian, Yangxin Xu, Fei Wang,
- Abstract要約: PTA(Purify-then-Align)はメタラーニングと知識拡散を統合したフレームワークである。
PTAは最先端の性能を達成し、単一モダリティモデルの堅牢性を大幅に向上させる。
- 参考スコア(独自算出の注目度): 5.176984656495265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robust multimodal human sensing must overcome the critical challenge of missing modalities. Two principal barriers are the Representation Gap between heterogeneous data and the Contamination Effect from low-quality modalities. These barriers are causally linked, as the corruption introduced by contamination fundamentally impedes the reduction of representation disparities. In this paper, we propose PTA, a novel "Purify-then-Align" framework that solves this causal dependency through a synergistic integration of meta-learning and knowledge diffusion. To purify the knowledge source, PTA first employs a meta-learning-driven weighting mechanism that dynamically learns to down-weight the influence of noisy, low-contributing modalities. Subsequently, to align different modalities, PTA introduces a diffusion-based knowledge distillation paradigm in which an information-rich clean teacher, formed from this purified consensus, refines the features of each student modality. The ultimate payoff of this "Purify-then-Align" strategy is the creation of exceptionally powerful single-modality encoders imbued with cross-modal knowledge. Comprehensive experiments on the large-scale MM-Fi and XRF55 datasets, under pronounced Representation Gap and Contamination Effect, demonstrate that PTA achieves state-of-the-art performance and significantly improves the robustness of single-modality models in diverse missing-modality scenarios.
- Abstract(参考訳): 頑丈なマルチモーダル・ヒューマン・センシングは、欠落するモダリティの致命的な課題を克服しなければならない。
2つの主要な障壁は、異種データ間の表現ギャップと、低品質なモダリティによる汚染効果である。
これらの障壁は、汚染によって引き起こされた汚職が、表現格差の減少を根本的に妨げているため、因果関係に結びついている。
本稿では,メタラーニングと知識拡散の相乗的統合により,この因果依存性を解決する新しいPurify-then-AlignフレームワークであるPTAを提案する。
知識源を浄化するために、PTAはまずメタラーニング駆動の重み付け機構を使用し、ノイズや低寄与率のモダリティの影響を動的に減重するために学習する。
その後、異なるモダリティを整合させるため、PTAは、情報に富んだ清浄な教師が、この清浄なコンセンサスから形成された拡散に基づく知識蒸留パラダイムを導入し、各学生のモダリティの特徴を洗練させる。
この"Purify-then-Align"戦略の最終的な成果は、非常に強力な単一モダリティエンコーダを作ることである。
Representation Gap and Contamination Effect(Representation Gap and Contamination Effect)と発音された大規模MM-FiおよびXRF55データセットに関する包括的な実験は、PTAが最先端のパフォーマンスを達成し、多様な欠落したモダリティシナリオにおける単一モダリティモデルの堅牢性を大幅に改善することを示した。
関連論文リスト
- Multi-Modal Image Fusion via Intervention-Stable Feature Learning [8.38110675007969]
本稿では、ロバストな相互依存を特定するために、因果原理に着想を得た介入に基づくフレームワークを提案する。
提案手法は,公開ベンチマークと下流高レベル視覚タスクの両方でSOTA性能を実現する。
論文 参考訳(メタデータ) (2026-03-24T14:36:24Z) - DIS2: Disentanglement Meets Distillation with Classwise Attention for Robust Remote Sensing Segmentation under Missing Modalities [28.992992584085787]
DIS2は、モダリティ共有機能依存からアクティブでガイド付き機能不足補償へ移行した新しいパラダイムである。
補償的特徴は、利用可能なモダリティの特徴と融合すると、フルモダリティの場合の理想的フューズド表現に近似する。
提案手法はベンチマーク間で最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2026-01-20T01:33:54Z) - Representation Space Constrained Learning with Modality Decoupling for Multimodal Object Detection [3.556651853847748]
本稿では,マルチモーダル検出における核融合劣化の理論的検討を行う。
2つのモジュールからなるRepresentation Space Constrained Learning with Modality Decoupling (RSC-MD)法を提案する。
提案手法は, 核融合劣化を効果的に軽減し, 複数のベンチマークで最先端性能を実現する。
論文 参考訳(メタデータ) (2025-11-19T13:41:27Z) - FSRF: Factorization-guided Semantic Recovery for Incomplete Multimodal Sentiment Analysis [15.96435347342821]
マルチモーダル知覚分析(MSA)は、人間の感情理解にマルチモーダルデータを活用する研究ホットスポットとなっている。
これまでのMSA研究は主に、完全なマルチモーダルデータに対する相互作用と融合の実行に焦点を当ててきた。
MSAタスクにおけるモダリティの欠如を緩和する因子分解誘導セマンティック・リカバリ・フレームワーク(FSRF)を提案する。
論文 参考訳(メタデータ) (2025-10-17T15:35:00Z) - Understanding Catastrophic Interference: On the Identifibility of Latent Representations [67.05452287233122]
破滅的な干渉、あるいは破滅的な忘れ(Caastrophic forgetting)は、機械学習の根本的な課題である。
本稿では,破滅的干渉を識別問題として定式化する新しい理論枠組みを提案する。
我々のアプローチは、合成データセットとベンチマークデータセットの両方で理論的保証と実用的なパフォーマンスの改善を提供する。
論文 参考訳(メタデータ) (2025-09-27T00:53:32Z) - The Risk of Federated Learning to Skew Fine-Tuning Features and
Underperform Out-of-Distribution Robustness [50.52507648690234]
フェデレートされた学習は、微調整された特徴をスキイングし、モデルの堅牢性を損なうリスクがある。
3つのロバスト性指標を導入し、多様なロバストデータセットで実験を行う。
提案手法は,パラメータ効率のよい微調整手法を含む多種多様なシナリオにまたがるロバスト性を著しく向上させる。
論文 参考訳(メタデータ) (2024-01-25T09:18:51Z) - Balanced Multi-modal Federated Learning via Cross-Modal Infiltration [19.513099949266156]
フェデレートラーニング(FL)は、プライバシを保存する分散コンピューティングの進歩を支えている。
本稿では,新しいクロスモーダル・インフィルティング・フェデレート・ラーニング(FedCMI)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-31T05:50:15Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。