論文の概要: Enhancing Foundation VLM Robustness to Missing Modality: Scalable Diffusion for Bi-directional Feature Restoration
- arxiv url: http://arxiv.org/abs/2602.03151v1
- Date: Tue, 03 Feb 2026 06:06:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.276914
- Title: Enhancing Foundation VLM Robustness to Missing Modality: Scalable Diffusion for Bi-directional Feature Restoration
- Title(参考訳): ファウンデーションVLMロバストネスの欠落 - 双方向特徴回復のためのスケーラブル拡散
- Authors: Wei Dai, Haoyu Wang, Honghao Chang, Lijun He, Fan Li, Jian Sun, Haixia Bi,
- Abstract要約: 本研究では,機能不足を効果的に回復するために,拡張拡散モデルをプラグ可能な中段階トレーニングモジュールとして導入する。
I)動的モダリティゲーティング(動的モダリティゲーティング)は、条件付き特徴を適応的に活用し、セマンティック一貫性のある特徴の生成を制御し、(II)双方向アライメントを実現するためにデュアルエンコーダのセマンティック空間をブリッジするクロスモーダル相互学習機構である。
- 参考スコア(独自算出の注目度): 40.720288165545476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Language Models (VLMs) typically assume complete modality input during inference. However, their effectiveness drops sharply when certain modalities are unavailable or incomplete. Current research primarily faces two dilemmas: Prompt-based methods struggle to restore missing yet indispensable features and impair generalization of VLMs. Imputation-based approaches, lacking effective guidance, are prone to generating semantically irrelevant noise. Restoring precise semantics while sustaining VLM generalization remains challenging. Therefore, we propose a general missing modality restoration strategy in this paper. We introduce an enhanced diffusion model as a pluggable mid-stage training module to effectively restore missing features. Our strategy introduces two key innovations: (I) Dynamic Modality Gating, which adaptively leverages conditional features to steer the generation of semantically consistent features; (II) Cross-Modal Mutual Learning mechanism, which bridges the semantic spaces of dual encoders to achieve bidirectional alignment. Zero-shot evaluations across benchmark datasets demonstrate that our approach outperforms existing baseline methods. Extensive experiments and ablation studies confirm our model as a robust and scalable extension for VLMs in missing modality scenarios, ensuring reliability across diverse missing rates and environments. Our code and models will be publicly available.
- Abstract(参考訳): 視覚言語モデル(VLM)は通常、推論中に完全なモダリティ入力を仮定する。
しかし、特定のモダリティが利用できない、あるいは不完全な場合、その効果は急激に低下する。
現在の研究は主に2つのジレンマに直面している: プロンプトベースの手法は、欠落するが必要不可欠な特徴を回復するのに苦労し、VLMの一般化を損なう。
効果的なガイダンスを欠いた命令に基づくアプローチは、意味的に無関係なノイズを生成する傾向にある。
VLMの一般化を維持しながら正確な意味を復元することは依然として困難である。
そこで本稿では, 一般に欠落したモダリティ回復戦略を提案する。
本研究では,機能不足を効果的に回復するために,拡張拡散モデルをプラグ可能な中段階トレーニングモジュールとして導入する。
I)動的モダリティゲーティング(動的モダリティゲーティング)は、条件付き特徴を適応的に活用し、セマンティック一貫性のある特徴の生成を制御し、(II)双方向アライメントを実現するためにデュアルエンコーダのセマンティック空間をブリッジするクロスモーダル相互学習機構である。
ベンチマークデータセット間のゼロショット評価は、我々のアプローチが既存のベースラインメソッドより優れていることを示している。
大規模な実験とアブレーション研究により、VLMの弾力性およびスケーラブルな拡張が欠落するシナリオにおいて確認され、多様な欠落率と環境の信頼性が保証される。
私たちのコードとモデルは公開されます。
関連論文リスト
- DIS2: Disentanglement Meets Distillation with Classwise Attention for Robust Remote Sensing Segmentation under Missing Modalities [28.992992584085787]
DIS2は、モダリティ共有機能依存からアクティブでガイド付き機能不足補償へ移行した新しいパラダイムである。
補償的特徴は、利用可能なモダリティの特徴と融合すると、フルモダリティの場合の理想的フューズド表現に近似する。
提案手法はベンチマーク間で最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2026-01-20T01:33:54Z) - Dual-level Modality Debiasing Learning for Unsupervised Visible-Infrared Person Re-Identification [59.59359638389348]
本稿では,モデルと最適化の両レベルでのデバイアス処理を実装したデュアルレベルのモダリティ・デバイアス学習フレームワークを提案する。
ベンチマークデータセットの実験では、DMDLはモダリティ不変の特徴学習とより一般化されたモデルを可能にすることを示した。
論文 参考訳(メタデータ) (2025-12-03T12:43:16Z) - Filling the Gaps: A Multitask Hybrid Multiscale Generative Framework for Missing Modality in Remote Sensing Semantic Segmentation [28.992992584085787]
マルチモーダル学習は、通常の単調モデルと比較して大きな性能向上を示した。
現実のシナリオでは、センサーの故障と悪天候のためにマルチモーダル信号が欠落する可能性がある。
本稿では,これらの制約に対処するために,GEMMNet(Generative-Enhanced MultiModal Learning Network)を提案する。
論文 参考訳(メタデータ) (2025-09-14T05:40:35Z) - Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。
本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文 参考訳(メタデータ) (2025-08-06T09:03:10Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - How Far Are We from Generating Missing Modalities with Foundation Models? [49.425856207329524]
欠落したモダリティの再構築に適したエージェントフレームワークを提案する。
本手法は, 画像再構成に要するFIDを少なくとも14%, MERを少なくとも10%削減する。
論文 参考訳(メタデータ) (2025-06-04T03:22:44Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。