論文の概要: Addressing Missing and Noisy Modalities in One Solution: Unified Modality-Quality Framework for Low-quality Multimodal Data
- arxiv url: http://arxiv.org/abs/2603.02695v1
- Date: Tue, 03 Mar 2026 07:38:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.691651
- Title: Addressing Missing and Noisy Modalities in One Solution: Unified Modality-Quality Framework for Low-quality Multimodal Data
- Title(参考訳): 欠落と雑音に対処する一解法:低品質マルチモーダルデータのための統一モダリティ・クオリティ・フレームワーク
- Authors: Sijie Mai, Shiqin Han, Haifeng Hu,
- Abstract要約: マルチモーダルな感情コンピューティングのための低品質表現を強化するために,統一モダリティ品質(UMQ)フレームワークを提案する。
UMQは、完全な、欠落した、ノイズの多いモダリティの設定の下で、複数のデータセットにおける最先端のベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 15.181276098822737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal data encountered in real-world scenarios are typically of low quality, with noisy modalities and missing modalities being typical forms that severely hinder model performance and robustness. However, prior works often handle noisy and missing modalities separately. In contrast, we jointly address missing and noisy modalities to enhance model robustness in low-quality data scenarios. We regard both noisy and missing modalities as a unified low-quality modality problem, and propose a unified modality-quality (UMQ) framework to enhance low-quality representations for multimodal affective computing. Firstly, we train a quality estimator with explicit supervised signals via a rank-guided training strategy that compares the relative quality of different representations by adding a ranking constraint, avoiding training noise caused by inaccurate absolute quality labels. Then, a quality enhancer for each modality is constructed, which uses the sample-specific information provided by other modalities and the modality-specific information provided by the defined modality baseline representation to enhance the quality of unimodal representations. Finally, we propose a quality-aware mixture-of-experts module with particular routing mechanism to enable multiple modality-quality problems to be addressed more specifically. UMQ consistently outperforms state-of-the-art baselines on multiple datasets under the settings of complete, missing, and noisy modalities.
- Abstract(参考訳): 実世界のシナリオで遭遇するマルチモーダルデータは、典型的には低品質であり、ノイズの多いモダリティと欠落したモダリティは、モデルの性能と堅牢性を著しく妨げる典型的な形式である。
しかし、以前の作品は、しばしばノイズと欠落したモダリティを別々に扱う。
対照的に、低品質なデータシナリオにおけるモデルロバスト性を高めるために、欠落とノイズに対処する。
我々は、ノイズと欠落モードを統一された低品質モダリティ問題とみなし、マルチモーダル感情コンピューティングの低品質表現を強化するための統一されたモダリティ品質(UMQ)フレームワークを提案する。
まず、ランク付け制約を加えることで、異なる表現の相対的品質を比較し、絶対品質ラベルの不正確さによるトレーニングノイズを回避できるランク誘導型トレーニング戦略により、明示的な教師付き信号を用いた品質推定器を訓練する。
そして、他のモダリティによって提供されるサンプル固有情報と、定義されたモダリティベースライン表現によって提供されるモダリティ固有情報を用いて、モダリティ毎の品質向上を行う。
最後に、複数のモダリティ品質問題をより具体的に解決するための、特定のルーティング機構を備えた、品質に配慮したミックス・オブ・エキスパート・モジュールを提案する。
UMQは、完全な、欠落した、ノイズの多いモダリティの設定の下で、複数のデータセットにおける最先端のベースラインを一貫して上回る。
関連論文リスト
- BriMA: Bridged Modality Adaptation for Multi-Modal Continual Action Quality Assessment [25.689906499244533]
アクション品質アセスメント(AQA)は、スポーツ分析、リハビリテーションアセスメント、ヒューマンスキルアセスメントにおいて、アクションがどれだけうまく実行されるかを評価することを目的としている。
BriMA(Bridged Modality Adaptation)は,マルチモーダル連続型AQAに対して,モダリティを欠く条件下での革新的なアプローチである。
BriMAは、タスクに依存しない表現とタスク固有の表現の両方を用いて、欠落したモダリティを再構築するメモリ誘導ブリッジインパクションモジュールと、モダリティ歪みと分散ドリフトに基づく情報サンプルの優先順位付けを行うモダリティ対応リプレイ機構で構成されている。
論文 参考訳(メタデータ) (2026-02-22T13:00:52Z) - Test-time Adaptive Hierarchical Co-enhanced Denoising Network for Reliable Multimodal Classification [55.56234913868664]
マルチモーダルデータを用いた信頼性学習のためのTAHCD(Test-time Adaptive Hierarchical Co-enhanced Denoising Network)を提案する。
提案手法は,最先端の信頼性の高いマルチモーダル学習手法と比較して,優れた分類性能,堅牢性,一般化を実現する。
論文 参考訳(メタデータ) (2026-01-12T03:14:12Z) - Diagnosing and Mitigating Modality Interference in Multimodal Large Language Models [26.005367102695317]
マルチモーダル大規模言語モデルでは,非関連信号とタスク関連情報を区別することが困難である。
無関係なモダリティからの急激な情報は、しばしば大幅な性能低下をもたらすことを示す。
本稿では,摂動と対向的摂動を併用した摂動に基づくデータ拡張を含む,MLLMを微調整する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-05-26T07:31:32Z) - Benchmarking Multi-modal Semantic Segmentation under Sensor Failures: Missing and Noisy Modality Robustness [61.87055159919641]
マルチモーダルセマンティックセグメンテーション(MMSS)は、モーダル間で補完情報を統合することで、単一モーダルデータの制限に対処する。
顕著な進歩にもかかわらず、マルチモーダルデータ品質の変動と不確実性により、研究と実世界の展開の間に大きなギャップが持続する。
Intire-Missing Modality (EMM)、Random-Missing Modality (RMM)、Noisy Modality (NM)の3つのシナリオでMMSSモデルを評価する頑健性ベンチマークを導入する。
論文 参考訳(メタデータ) (2025-03-24T08:46:52Z) - Asymmetric Reinforcing against Multi-modal Representation Bias [59.685072206359855]
マルチモーダル表現バイアス(ARM)に対する非対称強化法を提案する。
我々のARMは、条件付き相互情報を通じて支配的なモダリティを表現する能力を維持しながら、弱いモダリティを動的に強化する。
我々はマルチモーダル学習の性能を著しく改善し、不均衡なマルチモーダル学習の軽減に顕著な進展をもたらした。
論文 参考訳(メタデータ) (2025-01-02T13:00:06Z) - Enhancing Unimodal Latent Representations in Multimodal VAEs through Iterative Amortized Inference [20.761803725098005]
マルチモーダル変分オートエンコーダ(VAE)は、異なるデータモダリティからの情報を統合することで、共有潜在表現をキャプチャすることを目的としている。
重要な課題は、あらゆる可能なモダリティの組み合わせに対して、非現実的な数の推論ネットワークを訓練することなく、任意のモダリティのサブセットから正確に表現を推論することである。
本稿では,マルチモーダルVAEフレームワーク内での反復的改善機構であるマルチモーダル反復補正推論を導入する。
論文 参考訳(メタデータ) (2024-10-15T08:49:38Z) - Q-Ground: Image Quality Grounding with Large Multi-modality Models [61.72022069880346]
Q-Groundは、大規模な視覚的品質グラウンドに取り組むための最初のフレームワークである。
Q-Groundは、大規模なマルチモダリティモデルと詳細な視覚的品質分析を組み合わせる。
コントリビューションの中心は、QGround-100Kデータセットの導入です。
論文 参考訳(メタデータ) (2024-07-24T06:42:46Z) - Missing Modality Prediction for Unpaired Multimodal Learning via Joint Embedding of Unimodal Models [6.610033827647869]
実世界のシナリオでは、完全なマルチモーダルデータを一貫して取得することは重大な課題である。
これはしばしば、特定のモダリティのデータが欠落しているモダリティの問題につながる。
自己教師型共同埋め込み学習手法を用いて, パラメータ効率のよい未学習モデルの微調整を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-17T14:44:25Z) - Adaptive Feature Selection for No-Reference Image Quality Assessment by Mitigating Semantic Noise Sensitivity [55.399230250413986]
上流タスクから有害なセマンティックノイズを除去するためのQFM-IQM(Quality-Aware Feature Matching IQA Metric)を提案する。
提案手法は,8つの標準IQAデータセット上での最先端NR-IQA法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-12-11T06:50:27Z) - Self-attention fusion for audiovisual emotion recognition with
incomplete data [103.70855797025689]
視覚的感情認識を応用したマルチモーダルデータ解析の問題点を考察する。
本稿では、生データから学習可能なアーキテクチャを提案し、その3つの変種を異なるモダリティ融合機構で記述する。
論文 参考訳(メタデータ) (2022-01-26T18:04:29Z) - Quality-Aware Multimodal Biometric Recognition [30.322429033099688]
弱教師付き方式で評価された品質スコアを重み付けすることで,入力モダリティの表現を融合する品質認識フレームワークを開発する。
このフレームワークは2つの融合ブロックを利用し、それぞれが品質認識ネットワークと集約ネットワークのセットで表される。
顔,虹彩,指紋モダリティからなる3つのマルチモーダルデータセットについて検討し,その性能評価を行った。
論文 参考訳(メタデータ) (2021-12-10T20:48:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。