論文の概要: Hidden in the Multiplicative Interaction: Uncovering Fragility in Multimodal Contrastive Learning
- arxiv url: http://arxiv.org/abs/2604.05834v1
- Date: Tue, 07 Apr 2026 13:03:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.836915
- Title: Hidden in the Multiplicative Interaction: Uncovering Fragility in Multimodal Contrastive Learning
- Title(参考訳): マルチプライオリティ・インタラクションに隠れた「マルチモーダル・コントラシティブ・ラーニング」における脆弱性の発見
- Authors: Tillmann Rheude, Stefan Hegselmann, Roland Eils, Benjamin Wild,
- Abstract要約: ゲイト・シミュレイル(Gated Symile)は、注意に基づく、候補者ごとのモダリティ貢献を適応する対照的なゲーティング機構である。
Gated Symileは、よく調整されたSymileやCLIPモデルよりも高いトップ1検索精度を実現する。
- 参考スコア(独自算出の注目度): 1.900736265330452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal contrastive learning is increasingly enriched by going beyond image-text pairs. Among recent contrastive methods, Symile is a strong approach for this challenge because its multiplicative interaction objective captures higher-order cross-modal dependence. Yet, we find that Symile treats all modalities symmetrically and does not explicitly model reliability differences, a limitation that becomes especially present in trimodal multiplicative interactions. In practice, modalities beyond image-text pairs can be misaligned, weakly informative, or missing, and treating them uniformly can silently degrade performance. This fragility can be hidden in the multiplicative interaction: Symile may outperform pairwise CLIP even if a single unreliable modality silently corrupts the product terms. We propose Gated Symile, a contrastive gating mechanism that adapts modality contributions on an attention-based, per-candidate basis. The gate suppresses unreliable inputs by interpolating embeddings toward learnable neutral directions and incorporating an explicit NULL option when reliable cross-modal alignment is unlikely. Across a controlled synthetic benchmark that uncovers this fragility and three real-world trimodal datasets for which such failures could be masked by averages, Gated Symile achieves higher top-1 retrieval accuracy than well-tuned Symile and CLIP models. More broadly, our results highlight gating as a step toward robust multimodal contrastive learning under imperfect and more than two modalities.
- Abstract(参考訳): マルチモーダルなコントラスト学習は、画像とテキストのペアを超えて、ますます豊かになっている。
最近の対照的な手法の中で、Symileは、乗法的相互作用の目的が高次クロスモーダル依存を捉えているため、この課題に対する強力なアプローチである。
しかし、シンジレはすべてのモダリティを対称的に扱い、信頼性の違いを明示的にモデル化しない。
実際には、画像とテキストのペアを超えたモダリティは、ミスアライメント、弱情報化、または欠落し、それらを一様に扱うことは、パフォーマンスを静かに低下させる。
この脆弱性は乗法的相互作用の中に隠すことができる: シンジレは、単一の信頼できないモダリティが積の項を静かに破壊しても、ペアワイズCLIPより優れる。
本稿では, 注意に基づく, 候補ごとのモダリティ貢献を適応する, 対照的なゲーティング機構であるGated Symileを提案する。
ゲートは、学習可能な中立方向への埋め込みを補間し、信頼性の高いクロスモーダルアライメントが不可能な場合に明示的なNULLオプションを組み込むことで、信頼できない入力を抑える。
この脆弱性と、そのような障害を平均的に隠蔽できる現実世界の3つのトリモーダルデータセットを明らかにするための、制御された総合ベンチマーク全体にわたって、Gated Symileは、よくチューニングされたSymileとCLIPモデルよりも高いトップ1の精度を達成する。
より広範に、我々の結果は、不完全かつ2つ以上のモダリティの下で頑健なマルチモーダルコントラスト学習への一歩としてゲーティングを強調した。
関連論文リスト
- Complementarity-Supervised Spectral-Band Routing for Multimodal Emotion Recognition [60.20529806857076]
マルチモーダル感情認識は、テキスト、ビデオ、音声などの手がかりを融合させ、個人の感情状態を理解する。
従来の手法では、機械的に独立な単調なパフォーマンスに依存することと、感情タスクで要求されるきめ細かい表現と相反する粗粒の融合という2つの主な制限に直面していた。
我々は,マルチスケールバンド分解とエキスパートコラボレーションを通じて,微細な相補的特徴をモデル化するために,Atsukoという名前のComplementarity-Supervised Multi-Band Expert Networkを提案する。
論文 参考訳(メタデータ) (2026-03-07T03:58:48Z) - VENOMREC: Cross-Modal Interactive Poisoning for Targeted Promotion in Multimodal LLM Recommender Systems [21.052560782262812]
マルチモーダル大言語モデル (MLLM) は, コンテントグラウンド検索とクロスモーダル融合によるランク付けに向けてレコメンドシステム (RecSys) を推し進めている。
クロスモーダルなコンセンサスは,対話ログを操作したり,摂動を単一モーダルで操作する従来の中毒を緩和することが多いが,同時に,同期マルチモーダル中毒は,微調整中に安定した意味方向に沿って,融合表現を確実に操ることのできる,新たな攻撃面も導入している。
我々は、クロスモーダルなインタラクティブな中毒を定式化してVENOMRECを提案する。これは、共同埋め込み空間における高露光領域を識別するための露光アライメントと、クラフトに対するクロスモーダルなインタラクティブな摂動を実現する。
論文 参考訳(メタデータ) (2026-02-06T06:02:57Z) - CSR-Bench: A Benchmark for Evaluating the Cross-modal Safety and Reliability of MLLMs [10.42126976065225]
MLLM(Multimodal large language model)は、テキストと画像の相互作用を可能にする。
本稿では,クロスモーダル信頼性を評価するベンチマークであるCSR-Benchを紹介する。
我々は16の最先端MLLMを評価し,系統的な相互アライメントギャップを観察した。
論文 参考訳(メタデータ) (2026-02-03T08:49:44Z) - Towards Trustworthy Multimodal Recommendation [6.596263763651009]
現実のデプロイメントはますます重要になってきていますが、未調査の問題、すなわち信頼性を高めます。
現代のeコマースプラットフォームでは、マルチモーダルコンテンツは誤解を招くか、信頼できない。
本稿では,不確実なモダリティ特徴を緩和するモジュール・アンド・プレイのモダリティレベル補正コンポーネントを提案する。
論文 参考訳(メタデータ) (2026-01-31T13:47:25Z) - When Alignment Fails: Multimodal Adversarial Attacks on Vision-Language-Action Models [75.16145284285456]
我々は,White-box設定とBlack-box設定の両方の下で,組込みVLAモデルのマルチモーダル対向ロバスト性に関する総合的研究であるVLA-Foolを紹介する。
自動生成および意味的に誘導されるプロンプトフレームワークを最初に開発する。
LIBEROベンチマークの実験では、小さなマルチモーダル摂動でさえ大きな行動偏差を引き起こすことが示されている。
論文 参考訳(メタデータ) (2025-11-20T10:14:32Z) - Modest-Align: Data-Efficient Alignment for Vision-Language Models [67.48633659305592]
クロスモーダルアライメントモデルは、リソース制約のある環境での運用において、過信と劣化したパフォーマンスに悩まされることが多い。
我々は,ロバスト性と効率性に配慮した軽量アライメントフレームワークであるModest-Alignを提案する。
本手法は,実世界の低リソースシナリオにおけるクロスモーダルアライメントを実現するための,実用的でスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-10-24T16:11:10Z) - CLAMP: Contrastive Learning with Adaptive Multi-loss and Progressive Fusion for Multimodal Aspect-Based Sentiment Analysis [0.6961946145048322]
本稿では,Adaptive Multi-lossとProgressive Attention Fusionを用いた,エンドツーエンドのコントラスト学習フレームワークを提案する。
このフレームワークは、Progressive Attention Fusion Network、Multi-task Contrastive Learning、Adaptive Multi-loss Aggregationの3つの新しいモジュールで構成されている。
標準の公開ベンチマークによる評価は、CLAMPが既存の最先端技術よりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2025-07-21T11:49:57Z) - Adversarial Robustness for Unified Multi-Modal Encoders via Efficient Calibration [12.763688592842717]
統合マルチモーダルエンコーダにおける敵の脆弱性の包括的研究について述べる。
音声や点雲などの視覚的でない入力は、特に脆弱である。
本手法は,エプシロン=4/255で最大47.3%の強靭性を向上する。
論文 参考訳(メタデータ) (2025-05-17T08:26:04Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。