論文の概要: CIBR: Cross-modal Information Bottleneck Regularization for Robust CLIP Generalization
- arxiv url: http://arxiv.org/abs/2503.24182v1
- Date: Mon, 31 Mar 2025 15:00:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:35:01.445240
- Title: CIBR: Cross-modal Information Bottleneck Regularization for Robust CLIP Generalization
- Title(参考訳): CIBR:ロバストCLIP一般化のためのクロスモーダル情報ボトルネック正規化
- Authors: Yingrui Ji, Xi Xiao, Gaofei Chen, Hao Xu, Chenrui Ma, Lijing Zhu, Aokun Liang, Jiansheng Chen,
- Abstract要約: 本稿では,暗黙的な情報ボトルネック最適化として,クロスモーダル・インフォメーション・ボトルネック(CIB)フレームワークを提案する。
この観点では、モデルはモダリティ固有の冗長性を捨てながら、共有モダリティ情報の最大化を行う。
我々は、これらのICB原則をトレーニング中に明示的に適用するクロスモーダル情報ボトルネック規則化(CIBR)手法を導入する。
- 参考スコア(独自算出の注目度): 13.867420348797783
- License:
- Abstract: Contrastive Language-Image Pretraining (CLIP) has achieved remarkable success in cross-modal tasks such as zero-shot image classification and text-image retrieval by effectively aligning visual and textual representations. However, the theoretical foundations underlying CLIP's strong generalization remain unclear. In this work, we address this gap by proposing the Cross-modal Information Bottleneck (CIB) framework. CIB offers a principled interpretation of CLIP's contrastive learning objective as an implicit Information Bottleneck optimization. Under this view, the model maximizes shared cross-modal information while discarding modality-specific redundancies, thereby preserving essential semantic alignment across modalities. Building on this insight, we introduce a Cross-modal Information Bottleneck Regularization (CIBR) method that explicitly enforces these IB principles during training. CIBR introduces a penalty term to discourage modality-specific redundancy, thereby enhancing semantic alignment between image and text features. We validate CIBR on extensive vision-language benchmarks, including zero-shot classification across seven diverse image datasets and text-image retrieval on MSCOCO and Flickr30K. The results show consistent performance gains over standard CLIP. These findings provide the first theoretical understanding of CLIP's generalization through the IB lens. They also demonstrate practical improvements, offering guidance for future cross-modal representation learning.
- Abstract(参考訳): Contrastive Language-Image Pretraining (CLIP) は、ゼロショット画像分類やテキスト画像検索など、視覚的およびテキスト的表現を効果的に整合させることによって、クロスモーダルなタスクにおいて顕著な成功を収めた。
しかし、CLIPの強い一般化の基礎となる理論的基盤はいまだ不明である。
本稿では,CIB(Cross-modal Information Bottleneck)フレームワークを提案することで,このギャップに対処する。
CIBは、CLIPの対照的な学習目標を暗黙のInformation Bottleneck最適化として原則的に解釈する。
この観点では、モデルはモダリティ固有の冗長性を捨てながら共有モダリティ情報を最大化し、モダリティを横断するセマンティックアライメントを維持する。
この知見に基づいて、トレーニング中にこれらのIB原則を明示的に適用するクロスモーダル情報ボトルネック規則化(CIBR)手法を導入する。
CIBRは、モダリティ固有の冗長性を回避するためにペナルティ項を導入し、画像とテキストの特徴間のセマンティックアライメントを強化する。
7つの画像データセットのゼロショット分類や,MSCOCOとFlickr30Kのテキスト画像検索など,幅広い視覚言語ベンチマークでCIBRを検証する。
結果は、標準のCLIPよりも一貫したパフォーマンス向上を示している。
これらの知見は、IBレンズによるCLIPの一般化に関する最初の理論的理解を提供する。
また、将来のクロスモーダル表現学習のためのガイダンスを提供するなど、実践的な改善も示している。
関連論文リスト
- Fully Aligned Network for Referring Image Segmentation [22.40918154209717]
本稿では、与えられた言語記述に基づいて画像からオブジェクトをセグメント化するReferring Image Taskに焦点を当てる。
RISの重要な問題は、ターゲットオブジェクトを認識し、セグメント化するために、異なるモダリティ間のきめ細かいアライメントを達成することである。
本稿では,4つのモード間相互作用の原則に従うフルアラインド・ネットワーク(FAN)を提案する。
論文 参考訳(メタデータ) (2024-09-29T06:13:34Z) - Understanding Transferable Representation Learning and Zero-shot Transfer in CLIP [84.90129481336659]
CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。
そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:41:30Z) - Extending CLIP's Image-Text Alignment to Referring Image Segmentation [48.26552693472177]
Referring Image(RIS)は、自然言語で記述されたインスタンスをセグメント化することを目的とした、クロスモーダルなタスクである。
RISCLIPは,RISのためのCLIPのクロスモーダルな性質を効果的に活用する新しいフレームワークである。
論文 参考訳(メタデータ) (2023-06-14T13:27:28Z) - Zero-shot Image Captioning by Anchor-augmented Vision-Language Space
Alignment [23.072180427273544]
ゼロショット画像キャプションにCLIPを直接利用する場合、文脈のテクスチュラルなモダリティに大きく依存し、視覚情報をほとんど無視する。
これを解決するために、教師なしのクロスモーダル学習を容易にするクロスモーダル言語モデル(CLM)を提案する。
MS COCOとFlickr 30Kの実験は、キャプション品質と計算効率の両方において提案手法の有望な性能を検証した。
論文 参考訳(メタデータ) (2022-11-14T11:12:19Z) - CLIP-Driven Fine-grained Text-Image Person Re-identification [50.94827165464813]
TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。
TIReIDにおけるCLIPの強力な知識をフル活用するための,CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。
論文 参考訳(メタデータ) (2022-10-19T03:43:12Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Vision-Language Pre-Training with Triple Contrastive Learning [45.80365827890119]
モーダル・インターモーダル・セルフ・スーパービジョンとクロスモーダル・イントラモーダル・セルフスーパービジョンの両方を活用することで、視覚言語事前学習のための三重コントラスト学習(TCL)を提案する。
マルチモーダル表現学習のための局所構造情報を考慮した最初の研究である。
論文 参考訳(メタデータ) (2022-02-21T17:54:57Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。