論文の概要: RMMSS: Towards Advanced Robust Multi-Modal Semantic Segmentation with Hybrid Prototype Distillation and Feature Selection
- arxiv url: http://arxiv.org/abs/2505.12861v2
- Date: Mon, 18 Aug 2025 04:29:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:09.96869
- Title: RMMSS: Towards Advanced Robust Multi-Modal Semantic Segmentation with Hybrid Prototype Distillation and Feature Selection
- Title(参考訳): RMMSS: ハイブリッド型蒸留と特徴選択による高度ロバストなマルチモーダルセマンティックセマンティックセマンティックセグメンテーションを目指して
- Authors: Jiaqi Tan, Xu Zheng, Yang Liu,
- Abstract要約: RMMSSは、モダリティの欠如した条件下でモデルロバスト性を高めるために設計された2段階のフレームワークである。
これは2つの重要なコンポーネントで構成されている。ハイブリッドプロトタイプ蒸留モジュール (HPDM) と特徴選択モジュール (FSM) である。
3つのデータセットに対する実験により,本手法は,それぞれ2.80%,3.89%,0.89%のモダリティ性能を向上することを示した。
- 参考スコア(独自算出の注目度): 9.418241223504252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal semantic segmentation (MMSS) faces significant challenges in real-world applications due to incomplete, degraded, or missing sensor data. While current MMSS methods typically use self-distillation with modality dropout to improve robustness, they largely overlook inter-modal correlations and thus suffer significant performance degradation when no modalities are missing. To this end, we present RMMSS, a two-stage framework designed to progressively enhance model robustness under missing-modality conditions, while maintaining strong performance in full-modality scenarios. It comprises two key components: the Hybrid Prototype Distillation Module (HPDM) and the Feature Selection Module (FSM). In the first stage, we pre-train the teacher model with full-modality data and then introduce HPDM to do cross-modal knowledge distillation for obtaining a highly robust model. In the second stage, we freeze both the pre-trained full-modality teacher model and the robust model and propose a trainable FSM that extracts optimal representations from both the feature and logits layers of the models via feature score calculation. This process learns a final student model that maintains strong robustness while achieving high performance under full-modality conditions. Our experiments on three datasets demonstrate that our method improves missing-modality performance by 2.80%, 3.89%, and 0.89%, respectively, compared to the state-of-the-art, while causing almost no drop in full-modality performance (only -0.1% mIoU). Meanwhile, different backbones (AnySeg and CMNeXt) are utilized to validate the generalizability of our framework.
- Abstract(参考訳): マルチモーダルセマンティックセグメンテーション(MMSS)は、不完全、劣化、またはセンサーデータの欠如により、現実世界のアプリケーションにおいて重大な課題に直面している。
現在のMMSS法は、通常、モダリティ・ドロップアウトによる自己蒸留を用いてロバスト性を改善するが、主にモダリティ間の相関を見落とし、モダリティが欠如している場合に顕著な性能劣化を被る。
そこで本研究では,モデルロバスト性向上のための2段階フレームワーク RMMSS を提案する。
Hybrid Prototype Distillation Module (HPDM) と Feature Selection Module (FSM) の2つの主要なコンポーネントから構成されている。
第1段階では,教師モデルをフルモーダルデータで事前訓練し,その上でHPDMを導入して,高度に堅牢なモデルを得るためのクロスモーダルな知識蒸留を行う。
第2段階では、事前学習されたフルモダリティ教師モデルとロバストモデルの両方を凍結し、特徴スコア計算によりモデルの特徴層とロジット層の両方から最適な表現を抽出する訓練可能なFSMを提案する。
このプロセスは、フルモダリティ条件下で高い性能を達成しつつ、強い堅牢性を維持する最終的な学生モデルを学ぶ。
3つのデータセットに対する実験により,本手法は,最先端技術と比較してそれぞれ2.80%,3.89%,0.89%向上し,フルモダリティ性能はほとんど低下しなかった(-0.1% mIoU)。
一方,フレームワークの一般化性を検証するために,異なるバックボーン (AnySeg と CMNeXt) を用いている。
関連論文リスト
- A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition [17.332141776831513]
マルチモーダル感情認識(MER)は、実用上不完全なマルチモーダルに遭遇することが多い。
そこで本研究では,MCULoRA(MCULoRA)と命名されたモダリティの組み合わせに基づく,一様疎結合な動的低ランク適応手法を提案する。
論文 参考訳(メタデータ) (2025-07-15T11:15:35Z) - FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [50.438552588818]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - G$^{2}$D: Boosting Multimodal Learning with Gradient-Guided Distillation [0.7673339435080445]
本稿では, カスタマイズされた損失関数を持つマルチモーダルモデルを最適化する知識蒸留フレームワークであるGradient-Guided Distillation (G$2$D)を紹介する。
G$2$Dは、訓練中に弱いモダリティの重要度を増幅し、分類および回帰タスクにおける最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2025-06-26T17:37:36Z) - Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。
評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文 参考訳(メタデータ) (2025-03-27T08:52:41Z) - Benchmarking Multi-modal Semantic Segmentation under Sensor Failures: Missing and Noisy Modality Robustness [61.87055159919641]
マルチモーダルセマンティックセグメンテーション(MMSS)は、モーダル間で補完情報を統合することで、単一モーダルデータの制限に対処する。
顕著な進歩にもかかわらず、マルチモーダルデータ品質の変動と不確実性により、研究と実世界の展開の間に大きなギャップが持続する。
Intire-Missing Modality (EMM)、Random-Missing Modality (RMM)、Noisy Modality (NM)の3つのシナリオでMMSSモデルを評価する頑健性ベンチマークを導入する。
論文 参考訳(メタデータ) (2025-03-24T08:46:52Z) - PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。
我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。
CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文 参考訳(メタデータ) (2024-09-08T15:02:25Z) - AMFD: Distillation via Adaptive Multimodal Fusion for Multispectral Pedestrian Detection [23.91870504363899]
マルチスペクトル検出におけるダブルストリームネットワークは、マルチモーダルデータに2つの異なる特徴抽出枝を用いる。
これにより、組み込みデバイスにおける多スペクトル歩行者検出が自律システムに広く採用されるのを妨げている。
本稿では,教師ネットワークの本来のモーダル特徴を完全に活用できる適応型モーダル核融合蒸留(AMFD)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2024-05-21T17:17:17Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - Progressive Multi-stage Interactive Training in Mobile Network for
Fine-grained Recognition [8.727216421226814]
再帰型モザイク発電機(RMG-PMSI)を用いたプログレッシブ多段階インタラクティブトレーニング手法を提案する。
まず、異なる位相の異なる画像を生成する再帰モザイク発生器(RMG)を提案する。
次に、異なるステージの特徴は、異なるステージの対応する特徴を強化し補完するマルチステージインタラクション(MSI)モジュールを通過する。
RMG-PMSIは高い堅牢性と伝達性で性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-12-08T10:50:03Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - End-to-End Automatic Speech Recognition with Deep Mutual Learning [29.925641799136663]
この論文は、エンドツーエンドASRモデルに深層相互学習を適用する最初のものである。
DMLでは、トレーニングプロセス全体を通して互いに模倣することで、複数のモデルを同時および共同でトレーニングします。
従来の学習法と比較して,dmlは両方のモデリング設定のasr性能が向上することを示す。
論文 参考訳(メタデータ) (2021-02-16T13:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。