論文の概要: Multimodal Negative Learning
- arxiv url: http://arxiv.org/abs/2510.20877v1
- Date: Thu, 23 Oct 2025 11:47:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.280985
- Title: Multimodal Negative Learning
- Title(参考訳): マルチモーダルネガティブラーニング
- Authors: Baoquan Gong, Xiyuan Gao, Pengfei Zhu, Qinghua Hu, Bing Cao,
- Abstract要約: 我々は新しい学習パラダイム"学習すべきでない"(Negative Learning)を提案する。
弱いモダリティのターゲットクラス予測を強化する代わりに、支配的なモダリティは弱いモダリティを動的に導き、非ターゲットクラスを抑える。
これは決定空間を安定化させ、モダリティ固有の情報を保存する。
- 参考スコア(独自算出の注目度): 55.67017420486548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal learning systems often encounter challenges related to modality imbalance, where a dominant modality may overshadow others, thereby hindering the learning of weak modalities. Conventional approaches often force weak modalities to align with dominant ones in "Learning to be (the same)" (Positive Learning), which risks suppressing the unique information inherent in the weak modalities. To address this challenge, we offer a new learning paradigm: "Learning Not to be" (Negative Learning). Instead of enhancing weak modalities' target-class predictions, the dominant modalities dynamically guide the weak modality to suppress non-target classes. This stabilizes the decision space and preserves modality-specific information, allowing weak modalities to preserve unique information without being over-aligned. We proceed to reveal multimodal learning from a robustness perspective and theoretically derive the Multimodal Negative Learning (MNL) framework, which introduces a dynamic guidance mechanism tailored for negative learning. Our method provably tightens the robustness lower bound of multimodal learning by increasing the Unimodal Confidence Margin (UCoM) and reduces the empirical error of weak modalities, particularly under noisy and imbalanced scenarios. Extensive experiments across multiple benchmarks demonstrate the effectiveness and generalizability of our approach against competing methods. The code will be available at https://github.com/BaoquanGong/Multimodal-Negative-Learning.git.
- Abstract(参考訳): マルチモーダル学習システムは、しばしばモダリティの不均衡に関連する問題に遭遇し、支配的なモダリティが他のモダリティを覆す可能性があるため、弱いモダリティの学習を妨げる。
従来のアプローチでは、弱いモダリティは、弱いモダリティに固有の独特な情報を抑圧するリスクを負う「(同じことを学ぶこと」 (Positive Learning) において、支配的なモダリティと整合せざるを得ない場合が多い。
この課題に対処するため、私たちは"Learning Not to Be"(否定的学習)という新しい学習パラダイムを提供しています。
弱いモダリティのターゲットクラス予測を強化する代わりに、支配的なモダリティは弱いモダリティを動的に導き、非ターゲットクラスを抑える。
これにより、決定空間を安定化し、モダリティ固有の情報を保存し、弱いモダリティがオーバーアライメントされることなくユニークな情報を保存できる。
我々は、ロバストネスの観点からマルチモーダル学習を明らかにし、理論的には、ネガティブ学習に適した動的誘導機構を導入するMNL(Multimodal Negative Learning)フレームワークを導出する。
本手法は,Unimodal Confidence Margin (UCoM) を増大させることにより,マルチモーダル学習のロバスト性低下を確実に抑制し,特に雑音や不均衡シナリオ下での弱いモーダル性の実証誤差を低減する。
複数のベンチマークにまたがる大規模な実験は、競合する手法に対するアプローチの有効性と一般化性を実証している。
コードはhttps://github.com/BaoquanGong/Multimodal-Negative-Learning.gitで入手できる。
関連論文リスト
- Rethinking Multimodal Learning from the Perspective of Mitigating Classification Ability Disproportion [6.749782429802639]
マルチモーダル学習は、モダリティの不均衡によって著しく制約される。
本稿では,強化の原理を取り入れて,弱いモダリティと強いモダリティの分類能力のバランスをとる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-27T14:12:20Z) - Asymmetric Reinforcing against Multi-modal Representation Bias [59.685072206359855]
マルチモーダル表現バイアス(ARM)に対する非対称強化法を提案する。
我々のARMは、条件付き相互情報を通じて支配的なモダリティを表現する能力を維持しながら、弱いモダリティを動的に強化する。
我々はマルチモーダル学習の性能を著しく改善し、不均衡なマルチモーダル学習の軽減に顕著な進展をもたらした。
論文 参考訳(メタデータ) (2025-01-02T13:00:06Z) - Diagnosing and Re-learning for Balanced Multimodal Learning [8.779005254634857]
本稿では,不均衡なマルチモーダル学習問題を克服するための診断・再学習手法を提案する。
各モードの学習状態は、その一様表現空間の分離性に基づいて推定される。
このように、少ない情報モダリティの過度な強調は避けられる。
論文 参考訳(メタデータ) (2024-07-12T22:12:03Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Calibrating Multimodal Learning [94.65232214643436]
本稿では,従来の手法の予測信頼性を校正するために,新たな正規化手法であるCML(Callibrating Multimodal Learning)正則化を提案する。
この技術は、既存のモデルによって柔軟に装備され、信頼性校正、分類精度、モデルロバスト性の観点から性能を向上させることができる。
論文 参考訳(メタデータ) (2023-06-02T04:29:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。