論文の概要: Is the Modality Gap a Bug or a Feature? A Robustness Perspective
- arxiv url: http://arxiv.org/abs/2603.29080v1
- Date: Mon, 30 Mar 2026 23:41:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:02.949119
- Title: Is the Modality Gap a Bug or a Feature? A Robustness Perspective
- Title(参考訳): モダリティギャップはバグか特徴か? -ロバストな視点から
- Authors: Rhea Chowers, Oshri Naparstek, Udi Barzelay, Yair Weiss,
- Abstract要約: ほぼ全ての現代のマルチモーダルモデルは、2つのモダリティが整列した埋め込み空間を求める。
一定の条件下では、対照的な損失を最小限に抑えれば、2つのモードが分離された表現が得られることを示す。
また、これらの条件下では、モダリティギャップはロバストネスに単調に関係していることが示される。
- 参考スコア(独自算出の注目度): 12.228713815185705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many modern multi-modal models (e.g. CLIP) seek an embedding space in which the two modalities are aligned. Somewhat surprisingly, almost all existing models show a strong modality gap: the distribution of images is well-separated from the distribution of texts in the shared embedding space. Despite a series of recent papers on this topic, it is still not clear why this gap exists nor whether closing the gap in post-processing will lead to better performance on downstream tasks. In this paper we show that under certain conditions, minimizing the contrastive loss yields a representation in which the two modalities are separated by a global gap vector that is orthogonal to their embeddings. We also show that under these conditions the modality gap is monotonically related to robustness: decreasing the gap does not change the clean accuracy of the models but makes it less likely that a model will change its output when the embeddings are perturbed. Our experiments show that for many real-world VLMs we can significantly increase robustness by a simple post-processing step that moves one modality towards the mean of the other modality, without any loss of clean accuracy.
- Abstract(参考訳): 多くの現代のマルチモーダルモデル(例えば CLIP)は、2つのモダリティが整列する埋め込み空間を求める。
画像の分布は、共有埋め込み空間内のテキストの分布から十分に分離されている。
このトピックに関する最近の一連の論文にもかかわらず、なぜこのギャップが存在するのか、またポストプロセッシングのギャップを埋めることが下流タスクのパフォーマンス向上に繋がるかどうかは不明だ。
本稿では, コントラスト損失の最小化は, それらの埋め込みに直交する大域的ギャップベクトルによって2つのモードが分離された表現をもたらすことを示す。
また、これらの条件下では、モダリティギャップはロバスト性に単調に関係していることが示される: ギャップを縮めることはモデルのクリーンな精度を変えないが、埋め込みが摂動したときにモデルが出力を変更する可能性が低い。
我々の実験は、多くの実世界のVLMにおいて、クリーンな精度を失うことなく、一方のモダリティを他方のモダリティの平均に向かって移動させる単純な後処理ステップにより、ロバスト性を大幅に向上させることができることを示した。
関連論文リスト
- Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - e5-omni: Explicit Cross-modal Alignment for Omni-modal Embeddings [91.3041144166326]
市販の視覚言語モデルをロバストなオムニモーダル埋め込みモデルに適応させる軽量な明示的アライメントレシピであるe5-omniを提案する。
e5-omniは、類似度尺度を整合させるためにモード対応温度校正と、混乱する負の点に焦点を合わせた制御可能な負のカリキュラムと、クロスモーダル幾何に適合するバッチホワイトニングを組み合わせる。
MMEB-V2とAudioCapsの実験では、強いバイモーダルおよびオムニモーダルベースラインよりも一貫した利得を示した。
論文 参考訳(メタデータ) (2026-01-07T07:39:40Z) - Modest-Align: Data-Efficient Alignment for Vision-Language Models [67.48633659305592]
クロスモーダルアライメントモデルは、リソース制約のある環境での運用において、過信と劣化したパフォーマンスに悩まされることが多い。
我々は,ロバスト性と効率性に配慮した軽量アライメントフレームワークであるModest-Alignを提案する。
本手法は,実世界の低リソースシナリオにおけるクロスモーダルアライメントを実現するための,実用的でスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-10-24T16:11:10Z) - It's Not a Modality Gap: Characterizing and Addressing the Contrastive Gap [4.437949196235149]
CLIPのような2エンコーダコントラストモデルでは、モダリティギャップが報告されている。
これらの要因を全て考慮しても、対照的な損失は実際にトレーニング中にギャップを生じさせます。
この対照的なギャップがCLIP空間の低均一性に起因する証拠を提示する。
論文 参考訳(メタデータ) (2024-05-28T20:28:07Z) - Smooth Diffusion: Crafting Smooth Latent Spaces in Diffusion Models [82.8261101680427]
滑らかな潜伏空間は、入力潜伏空間上の摂動が出力画像の定常的な変化に対応することを保証している。
この特性は、画像の反転、反転、編集を含む下流タスクにおいて有益である。
スムース拡散(Smooth Diffusion, Smooth Diffusion)は, 高速かつスムーズな拡散モデルである。
論文 参考訳(メタデータ) (2023-12-07T16:26:23Z) - Exploring Data Augmentation for Multi-Modality 3D Object Detection [82.9988604088494]
ポイントクラウドとイメージに基づくマルチモダリティメソッドは、ポイントクラウドのみを使用するアプローチよりも、わずかに良いか、時には悪いだけである。
トランスフォーメーションフローと呼ばれるパイプラインを提案し、トランスフォーメーションのリバースとリプレイによってシングルモードとマルチモードのデータ拡張のギャップを埋める。
また,本手法は第3回nuScenes検出チャレンジでPKL賞を受賞した。
論文 参考訳(メタデータ) (2020-12-23T15:23:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。