Fugu-MT 論文翻訳(概要): Plug, Play, and Fortify: A Low-Cost Module for Robust Multimodal Image Understanding Models

論文の概要: Plug, Play, and Fortify: A Low-Cost Module for Robust Multimodal Image Understanding Models

arxiv url: http://arxiv.org/abs/2602.22644v1
Date: Thu, 26 Feb 2026 05:51:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.544196
Title: Plug, Play, and Fortify: A Low-Cost Module for Robust Multimodal Image Understanding Models
Title（参考訳）: Plug, Play, Fortify:ロバストなマルチモーダル画像理解モデルのための低コストモジュール
Authors: Siqi Lu, Wanying Xu, Yongbin Zheng, Wenting Luan, Peng Sun, Jianhang Yao,
Abstract要約: MWAM(Multimodal Weight Allocation Module)は、トレーニング中の各ブランチのコントリビューションを動的に再バランスするプラグイン・アンド・プレイコンポーネントである。 MWAMは幅広いタスクとモダリティの組み合わせで一貫したパフォーマンス向上を実現している。
参考スコア（独自算出の注目度）: 6.350443894942629
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Missing modalities present a fundamental challenge in multimodal models, often causing catastrophic performance degradation. Our observations suggest that this fragility stems from an imbalanced learning process, where the model develops an implicit preference for certain modalities, leading to the under-optimization of others. We propose a simple yet efficient method to address this challenge. The central insight of our work is that the dominance relationship between modalities can be effectively discerned and quantified in the frequency domain. To leverage this principle, we first introduce a Frequency Ratio Metric (FRM) to quantify modality preference by analyzing features in the frequency domain. Guided by FRM, we then propose a Multimodal Weight Allocation Module, a plug-and-play component that dynamically re-balances the contribution of each branch during training, promoting a more holistic learning paradigm. Extensive experiments demonstrate that MWAM can be seamlessly integrated into diverse architectural backbones, such as those based on CNNs and ViTs. Furthermore, MWAM delivers consistent performance gains across a wide range of tasks and modality combinations. This advancement extends beyond merely optimizing the performance of the base model; it also manifests as further performance improvements to state-of-the-art methods addressing the missing modality problem.
Abstract（参考訳）: 欠落モダリティはマルチモーダルモデルにおいて根本的な課題であり、しばしば破滅的な性能劣化を引き起こす。この不安定性は、モデルが特定のモダリティに対する暗黙の選好を発達させ、他者の過小評価につながる不均衡な学習プロセスに起因していると考えられる。本稿では,この課題に対処するための簡易かつ効率的な手法を提案する。我々の研究の中心的な洞察は、モダリティ間の支配関係を周波数領域で効果的に識別し定量化できるということである。この原理を活用するために、まず周波数領域の特徴を解析し、モダリティの嗜好を定量化する周波数比メートル法(FRM)を導入する。 FRMによってガイドされたマルチモーダルウェイトアロケーションモジュールは、トレーニング中の各ブランチの寄与を動的に再バランスし、より総合的な学習パラダイムを促進するプラグイン・アンド・プレイコンポーネントである。大規模な実験では、MWAMはCNNやViTなど、さまざまなアーキテクチャのバックボーンにシームレスに統合可能であることが示されている。さらにMWAMは、幅広いタスクとモダリティの組み合わせで一貫したパフォーマンス向上を実現している。この進歩は、単にベースモデルの性能を最適化するだけでなく、欠落したモダリティ問題に対処する最先端のメソッドに対するさらなるパフォーマンス改善として現れている。

関連論文リスト

An Integrated Fusion Framework for Ensemble Learning Leveraging Gradient Boosting and Fuzzy Rule-Based Models [59.13182819190547]
ファジィ規則に基づくモデルは解釈可能性に優れ、様々な分野に広く応用されている。複雑な設計仕様や大規模データセットのスケーラビリティといった課題に直面している。本稿では,モデル性能と解釈可能性を高めるために,両パラダイムの強みを融合した統合統合フレームワークを提案する。
論文参考訳（メタデータ） (2025-11-11T10:28:23Z)
Improving Multimodal Sentiment Analysis via Modality Optimization and Dynamic Primary Modality Selection [54.10252086842123]
マルチモーダル・センティメント・アナリティクス(MSA)は、ビデオにおける言語、音響、視覚データから感情を予測することを目的としている。本稿では,モーダリティ最適化と動的一次モーダリティ選択フレームワーク(MODS)を提案する。 4つのベンチマークデータセットの実験では、MODSが最先端の手法より優れていることが示されている。
論文参考訳（メタデータ） (2025-11-09T11:13:32Z)
Learning to Fuse: Modality-Aware Adaptive Scheduling for Robust Multimodal Foundation Models [0.0]
モーダリティ・アウェア・アダプティブ・フュージョン・スケジューリング(MA-AFS)は、各モーダリティの寄与をインスタンス単位で動的に調節することを学ぶ。本研究は, 適応融合の重要性を強調し, 信頼性と不確実性を考慮したマルチモーダル学習に向けた有望な方向性を開く。
論文参考訳（メタデータ） (2025-06-15T05:57:45Z)
Modality Equilibrium Matters: Minor-Modality-Aware Adaptive Alternating for Cross-Modal Memory Enhancement [13.424541949553964]
そこで本研究では,微調整を適応的に優先順位付けしてバランスを保ち,融合を促進させるシェープリー誘導型交互訓練フレームワークを提案する。我々は4つのマルチモーダル・ベンチマーク・データセットのバランスと精度の両面での性能評価を行い,その手法がSOTA(State-of-the-art)の結果を達成した。
論文参考訳（メタデータ） (2025-05-26T02:02:57Z)
Reducing Unimodal Bias in Multi-Modal Semantic Segmentation with Multi-Scale Functional Entropy Regularization [66.10528870853324]
高精度な予測タスクのための新しいセンサからのマルチモーダル入力の再利用とバランスが重要である。 1つの大きな制限は、マルチモーダルフレームワークが容易に学習可能なモダリティに過度に依存する傾向があることである。本稿では,機能的エントロピーに基づくプラグ・アンド・プレイ正規化項を提案する。
論文参考訳（メタデータ） (2025-05-10T12:58:15Z)
PAL: Prompting Analytic Learning with Missing Modality for Multi-Modal Class-Incremental Learning [42.00851701431368]
マルチモーダルクラスインクリメンタルラーニング(MMCIL)は、音声と視覚、画像とテキストのペアのようなマルチモーダルデータを活用する。重要な課題は、漸進的な学習フェーズにおけるモダリティの欠如である。 PALは, MMCILに適合した, モダリティの欠如を前提とした, 斬新なフレームワークである。
論文参考訳（メタデータ） (2025-01-16T08:04:04Z)
Asymmetric Reinforcing against Multi-modal Representation Bias [59.685072206359855]
マルチモーダル表現バイアス(ARM)に対する非対称強化法を提案する。我々のARMは、条件付き相互情報を通じて支配的なモダリティを表現する能力を維持しながら、弱いモダリティを動的に強化する。我々はマルチモーダル学習の性能を著しく改善し、不均衡なマルチモーダル学習の軽減に顕著な進展をもたらした。
論文参考訳（メタデータ） (2025-01-02T13:00:06Z)
On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文参考訳（メタデータ） (2024-10-15T13:15:50Z)
Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。 UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文参考訳（メタデータ） (2023-11-06T13:56:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。