論文の概要: Buffer replay enhances the robustness of multimodal learning under missing-modality
- arxiv url: http://arxiv.org/abs/2511.23070v1
- Date: Fri, 28 Nov 2025 10:55:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.863236
- Title: Buffer replay enhances the robustness of multimodal learning under missing-modality
- Title(参考訳): バッファリプレイは欠落モード下でのマルチモーダル学習の堅牢性を高める
- Authors: Hongye Zhu, Xuan Liu, Yanwen Ba, Jingye Xue, Shigeng Zhang,
- Abstract要約: 本稿では,Replay Prompting (REP)を導入し,ネットワークの深さが増大するにつれて情報損失を軽減し,より深い層で再生する。
視覚言語、視覚言語、時間的マルチモーダルベンチマークの実験では、REPはシングルモーダルとマルチモーダルの両方の欠落シナリオにおいて、先行手法よりも一貫して優れていた。
これらの結果から、REPは、欠落したモダリティ環境に挑戦する上で、堅牢なマルチモーダル学習のための軽量かつ効果的なパラダイムとして確立されている。
- 参考スコア(独自算出の注目度): 9.512378886218395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Missing modalities consistently lead to significant performance degradation in multimodal models. Existing approaches either synthesize missing modalities at high computational cost or apply prompt-based fine-tuning that relies only on adjacent-layer features and overlooks long-distance contextual information, which may offer additional tolerance to errors when one or more modalities are missing. To address this, we introduce REplay Prompting (REP): (1) construct modality-wise feature buffers via a residual bypass to cache early-layer representations and replay them in deeper layers, mitigating information loss as network depth increases; (2) employ a private-shared feature decoupling strategy, where private buffers preserve modality-specific signals and shared buffers encode cross-modal semantics; and (3) design a task-aware dynamic initialization mechanism to configure these buffers differently, improving stability and generalization under diverse missing-modality conditions. Experiments on vision-language, vision-language-audio, and temporal multimodal benchmarks demonstrate that REP consistently outperforms prior methods under both single- and multi-modality missing scenarios, while introducing only negligible parameter overhead. These results establish REP as a lightweight and effective paradigm for robust multimodal learning in challenging missing-modality environments.
- Abstract(参考訳): モダリティの欠如は、マルチモーダルモデルの大幅な性能低下につながる。
既存のアプローチは、高い計算コストで欠落したモダリティを合成するか、隣接層の特徴のみに依存するプロンプトベースの微調整を適用して、1つ以上のモダリティが欠落した場合のエラーに対する追加の耐性を提供する長距離コンテキスト情報を見落としている。
これを解決するために,(1)残差バイパスによるモダリティワイドな特徴バッファを構築し,早期層表現をキャッシュし,より深い層で再生し,ネットワーク深度が増大するにつれて情報損失を軽減し,(2)プライベートなバッファがモダリティ固有の信号を保持し,共有バッファがモダリティ間セマンティクスを符号化する機能分離戦略を採用し,(3)タスク認識動的初期化機構を設計して,これらのバッファを異なる構成で設計し,多様なモダリティ条件下での安定性と一般化を向上する。
視覚言語、視覚言語、時間的マルチモーダルベンチマークの実験では、REPは単一およびマルチモーダルの欠落シナリオにおいて、常に先行メソッドよりも優れており、無視可能なパラメータオーバーヘッドのみを導入している。
これらの結果から、REPは、欠落したモダリティ環境に挑戦する上で、堅牢なマルチモーダル学習のための軽量かつ効果的なパラダイムとして確立されている。
関連論文リスト
- UMCL: Unimodal-generated Multimodal Contrastive Learning for Cross-compression-rate Deepfake Detection [37.37926854174864]
ディープフェイク検出では、ソーシャルメディアプラットフォームが使用する様々な圧縮の程度が、モデルの一般化と信頼性に重大な課題をもたらす。
クロスモーダルレート深度検出のための一様生成マルチモーダルコントラスト学習フレームワークを提案する。
提案手法は, 各種圧縮速度および操作タイプにまたがる優れた性能を実現し, 堅牢なディープフェイク検出のための新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2025-11-24T10:56:22Z) - I$^3$-MRec: Invariant Learning with Information Bottleneck for Incomplete Modality Recommendation [56.55935146424585]
textbfIncomplete textbfModality textbfRecommendation の textbfInformation ボトルネック原理を用いて学習する textbfI$3$-MRec を紹介する。
それぞれのモダリティを異なる意味環境として扱うことで、I$3$-MRecは、優先指向の表現を学習するために不変リスク最小化(IRM)を採用する。
I$3$-MRecは、様々なモダリティ欠落シナリオにおいて、既存の最先端MSSメソッドを一貫して上回る
論文 参考訳(メタデータ) (2025-08-06T09:29:50Z) - Advancing Reliable Test-Time Adaptation of Vision-Language Models under Visual Variations [67.35596444651037]
視覚言語モデル(VLM)は、素晴らしいゼロショット機能を示すが、ラベル付きデータが利用できない場合、下流タスクの分散シフトに苦慮する。
本稿では,信頼性を両面から高めるReliable Test-Time Adaptation (ReTA)法を提案する。
論文 参考訳(メタデータ) (2025-07-13T05:37:33Z) - Synergistic Prompting for Robust Visual Recognition with Missing Modalities [13.821274074204082]
大規模マルチモーダルモデルは様々な視覚認識タスクにおいて顕著な性能を示した。
欠落や不完全なモダリティ入力の存在は、しばしば大きなパフォーマンス劣化を引き起こす。
モダリティの欠如を伴い、頑健な視覚認識を実現するための新しいSynergistic Promptingフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-10T14:28:12Z) - FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [57.577843653775]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Rethinking Explainability in the Era of Multimodal AI [9.57008593971486]
マルチモーダルAIシステムはユビキタスになり、ハイテイクなアプリケーションにまたがって優れたパフォーマンスを実現している。
既存の説明可能性のテクニックの多くは単調のままであり、モダリティ固有の特徴属性、概念、回路トレースを分離して生成する。
本稿では, マルチモーダルモデル決定を駆動するクロスモーダルな影響を, 体系的に誤表現し, 捉えることができないことを論じる。
論文 参考訳(メタデータ) (2025-06-16T03:08:29Z) - Enhancing Unimodal Latent Representations in Multimodal VAEs through Iterative Amortized Inference [20.761803725098005]
マルチモーダル変分オートエンコーダ(VAE)は、異なるデータモダリティからの情報を統合することで、共有潜在表現をキャプチャすることを目的としている。
重要な課題は、あらゆる可能なモダリティの組み合わせに対して、非現実的な数の推論ネットワークを訓練することなく、任意のモダリティのサブセットから正確に表現を推論することである。
本稿では,マルチモーダルVAEフレームワーク内での反復的改善機構であるマルチモーダル反復補正推論を導入する。
論文 参考訳(メタデータ) (2024-10-15T08:49:38Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。