論文の概要: Dynamic Modality Scheduling for Multimodal Large Models via Confidence, Uncertainty, and Semantic Consistency
- arxiv url: http://arxiv.org/abs/2506.12724v1
- Date: Sun, 15 Jun 2025 05:15:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.720539
- Title: Dynamic Modality Scheduling for Multimodal Large Models via Confidence, Uncertainty, and Semantic Consistency
- Title(参考訳): 信頼・不確実性・セマンティック一貫性によるマルチモーダル大規模モデルの動的モーダリティスケジューリング
- Authors: Hiroshi Tanaka, Anika Rao, Hana Satou, Michael Johnson, Sofia García,
- Abstract要約: 本研究では,各モダリティの寄与をサンプル単位で適応的に調整する新しいフレームワークである動的モダリティスケジューリング(DMS)を提案する。
VQA、画像テキスト検索、キャプションタスクの実験結果から、DMSはクリーンとロバストの両方のパフォーマンスを著しく改善することが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal Large Models (MLLMs) have achieved remarkable progress in vision-language understanding and generation tasks. However, existing MLLMs typically rely on static modality fusion strategies, which treat all modalities equally regardless of their instance-level reliability or semantic contribution. This often leads to suboptimal performance, especially in scenarios with noisy, missing, or misaligned modalities. In this paper, we propose Dynamic Modality Scheduling (DMS), a novel framework that adaptively adjusts the contribution of each modality at a per-sample level. DMS evaluates each modality based on three key factors: (1) \textit{confidence}, estimated from predictive entropy; (2) \textit{uncertainty}, obtained via Monte Carlo dropout; and (3) \textit{semantic consistency}, computed through inter-modal similarity. These signals are combined through a learnable or rule-based scheduler to generate soft modality weights used in downstream fusion.To ensure stable training, we further introduce a \textit{Modality Weight Consistency Loss}, which regularizes the fused representation to stay close to unimodal embeddings proportionally to their assigned weights. Our method is model-agnostic and can be integrated into existing MLLMs such as BLIP-2 and LLaVA. Experimental results on VQA, image-text retrieval, and captioning tasks show that DMS significantly improves both clean and robust performance, especially under modality corruption or dropout conditions. This work provides a general and effective mechanism to enable instance-aware and robustness-enhanced multimodal modeling.
- Abstract(参考訳): MLLM(Multimodal Large Models)は、視覚言語理解と生成タスクにおいて顕著な進歩を遂げている。
しかし、既存のMLLMは、インスタンスレベルの信頼性やセマンティックコントリビューションに関わらず、全てのモダリティを等しく扱う静的なモダリティ融合戦略に依存している。
これはしばしば、特にノイズ、欠落、あるいは不整合なモダリティのあるシナリオにおいて、最適以下のパフォーマンスをもたらす。
本稿では,各モーダリティの寄与をサンプル単位で適応的に調整する新しいフレームワークである動的モーダリティスケジューリング(DMS)を提案する。
DMSは、予測エントロピーから推定される(1) \textit{confidence}、(2) Monte Carlo のドロップアウトによって得られる(2) \textit{uncertainty}、(3) モーダル間の類似性によって計算される(3) \textit{semantic consistency}の3つの主要な因子に基づいて、それぞれのモダリティを評価する。
これらの信号は学習可能なスケジューラやルールベースのスケジューラによって結合され、下流融合で使用される軟質なモードウェイトを生成し、安定したトレーニングを確保するために、融合表現を正規化して、割り当てられた重みに比例して非モード埋め込みに留まる、‘textit{Modality Weight Loss} を導入する。
本手法はモデルに依存しず,BLIP-2やLLaVAなどの既存のMLLMに組み込むことができる。
VQA、画像テキスト検索、キャプションタスクによる実験結果から、DMSは、特にモダリティ劣化やドロップアウト条件下で、クリーンとロバストの両方のパフォーマンスを著しく改善することが示された。
この研究は、インスタンス認識および堅牢性強化マルチモーダルモデリングを可能にする汎用的で効果的なメカニズムを提供する。
関連論文リスト
- Learning to Fuse: Modality-Aware Adaptive Scheduling for Robust Multimodal Foundation Models [0.0]
モーダリティ・アウェア・アダプティブ・フュージョン・スケジューリング(MA-AFS)は、各モーダリティの寄与をインスタンス単位で動的に調節することを学ぶ。
本研究は, 適応融合の重要性を強調し, 信頼性と不確実性を考慮したマルチモーダル学習に向けた有望な方向性を開く。
論文 参考訳(メタデータ) (2025-06-15T05:57:45Z) - BiXFormer: A Robust Framework for Maximizing Modality Effectiveness in Multi-Modal Semantic Segmentation [55.486872677160015]
マスクレベルの分類タスクとしてマルチモーダルなセマンティックセグメンテーションを再構成する。
統一モダリティマッチング(UMM)とクロスモダリティアライメント(CMA)を統合したBiXFormerを提案する。
合成および実世界のマルチモーダルベンチマーク実験により,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-06-04T08:04:58Z) - Benchmarking Multi-modal Semantic Segmentation under Sensor Failures: Missing and Noisy Modality Robustness [61.87055159919641]
マルチモーダルセマンティックセグメンテーション(MMSS)は、モーダル間で補完情報を統合することで、単一モーダルデータの制限に対処する。
顕著な進歩にもかかわらず、マルチモーダルデータ品質の変動と不確実性により、研究と実世界の展開の間に大きなギャップが持続する。
Intire-Missing Modality (EMM)、Random-Missing Modality (RMM)、Noisy Modality (NM)の3つのシナリオでMMSSモデルを評価する頑健性ベンチマークを導入する。
論文 参考訳(メタデータ) (2025-03-24T08:46:52Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。