論文の概要: Reducing Unimodal Bias in Multi-Modal Semantic Segmentation with Multi-Scale Functional Entropy Regularization
- arxiv url: http://arxiv.org/abs/2505.06635v1
- Date: Sat, 10 May 2025 12:58:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.952195
- Title: Reducing Unimodal Bias in Multi-Modal Semantic Segmentation with Multi-Scale Functional Entropy Regularization
- Title(参考訳): マルチスケール機能的エントロピー規則化による多モードセマンティックセマンティックセグメンテーションにおける一様バイアスの低減
- Authors: Xu Zheng, Yuanhuiyi Lyu, Lutao Jiang, Danda Pani Paudel, Luc Van Gool, Xuming Hu,
- Abstract要約: 高精度な予測タスクのための新しいセンサからのマルチモーダル入力の再利用とバランスが重要である。
1つの大きな制限は、マルチモーダルフレームワークが容易に学習可能なモダリティに過度に依存する傾向があることである。
本稿では,機能的エントロピーに基づくプラグ・アンド・プレイ正規化項を提案する。
- 参考スコア(独自算出の注目度): 66.10528870853324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fusing and balancing multi-modal inputs from novel sensors for dense prediction tasks, particularly semantic segmentation, is critically important yet remains a significant challenge. One major limitation is the tendency of multi-modal frameworks to over-rely on easily learnable modalities, a phenomenon referred to as unimodal dominance or bias. This issue becomes especially problematic in real-world scenarios where the dominant modality may be unavailable, resulting in severe performance degradation. To this end, we apply a simple but effective plug-and-play regularization term based on functional entropy, which introduces no additional parameters or modules. This term is designed to intuitively balance the contribution of each visual modality to the segmentation results. Specifically, we leverage the log-Sobolev inequality to bound functional entropy using functional-Fisher-information. By maximizing the information contributed by each visual modality, our approach mitigates unimodal dominance and establishes a more balanced and robust segmentation framework. A multi-scale regularization module is proposed to apply our proposed plug-and-play term on high-level features and also segmentation predictions for more balanced multi-modal learning. Extensive experiments on three datasets demonstrate that our proposed method achieves superior performance, i.e., +13.94%, +3.25%, and +3.64%, without introducing any additional parameters.
- Abstract(参考訳): 複雑な予測タスク、特にセマンティックセグメンテーションのために、新しいセンサーからのマルチモーダル入力を再利用し、バランスをとることは重要な課題であるが、依然として重要な課題である。
一つの大きな制限は、マルチモーダルフレームワークが容易に学習可能なモダリティを過度に重視する傾向があることである。
この問題は、支配的なモダリティが利用できない現実のシナリオでは特に問題となり、パフォーマンスが著しく低下する。
この目的のために、関数エントロピーに基づくシンプルだが効果的なプラグアンドプレイ正規化項を適用し、追加のパラメータやモジュールを導入しない。
この用語は、セグメント化結果に対する各視覚的モダリティの寄与を直感的にバランスさせるように設計されている。
具体的には,log-Sobolevの不等式を関数フィッシャー情報を用いた有界関数エントロピーに活用する。
視覚的モダリティによって提供された情報の最大化によって、我々のアプローチは、一様支配を緩和し、よりバランスの取れた、堅牢なセグメンテーションの枠組みを確立する。
提案するプラグイン・アンド・プレイ項を高次機能に適用し,よりバランスの取れたマルチモーダル学習のためのセグメンテーション予測を行うために,マルチスケール正規化モジュールを提案する。
3つのデータセットに対する大規模な実験により、提案手法は、追加パラメータを導入することなく、+13.94%、+3.25%、+3.64%の優れた性能を達成することが示された。
関連論文リスト
- Generalized Multimodal Fusion via Poisson-Nernst-Planck Equation [5.022049774600693]
本稿では,Poisson-Nernst-Planck(PNP)方程式を用いた一般化多モード融合法(GMF)を提案する。
提案したGMFは,より少ないパラメータと計算資源を生かしながら,最先端(SOTA)の精度に近い結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-20T19:15:28Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Revisiting Modality Imbalance In Multimodal Pedestrian Detection [6.7841188753203046]
本稿では,マルチモーダルアーキテクチャにおける正規化器を用いた新しいトレーニング構成を導入し,モーダル間の相違を解消する。
具体的には,2つの特徴抽出器を訓練中に同等に重要視することにより,特徴融合法をより堅牢にすることを支援する。
論文 参考訳(メタデータ) (2023-02-24T11:56:57Z) - Dynamic Feature Regularized Loss for Weakly Supervised Semantic
Segmentation [37.43674181562307]
動的に更新される浅度と深度の両方の機能を利用する新たな正規化損失を提案する。
提案手法は,新しい最先端性能を実現し,他の手法よりも6%以上のmIoU増加率で優れたマージンを達成している。
論文 参考訳(メタデータ) (2021-08-03T05:11:00Z) - Removing Bias in Multi-modal Classifiers: Regularization by Maximizing
Functional Entropies [88.0813215220342]
いくつかのモダリティは、他のものよりも分類結果に容易に寄与することができる。
機能的エントロピーと機能的フィッシャー情報とを結合した対数ソボレフの不等式に基づく手法を開発した。
VQA-CPv2 と SocialIQ の2つの挑戦的マルチモーダルデータセットに対して,より均一にモダリティを活用しながら,最先端の結果を得る。
論文 参考訳(メタデータ) (2020-10-21T07:40:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。