論文の概要: IsoCLIP: Decomposing CLIP Projectors for Efficient Intra-modal Alignment
- arxiv url: http://arxiv.org/abs/2603.19862v1
- Date: Fri, 20 Mar 2026 11:25:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:39.11687
- Title: IsoCLIP: Decomposing CLIP Projectors for Efficient Intra-modal Alignment
- Title(参考訳): IsoCLIP: 効率的なモード内アライメントのためのCLIPプロジェクタの分解
- Authors: Simone Magistri, Dipam Goswami, Marco Mistretta, Bartłomiej Twardowski, Joost van de Weijer, Andrew D. Bagdanov,
- Abstract要約: プレジェクション画像とテキスト埋め込みを共有埋め込み空間にマッピングするプロジェクターの役割に着目し,CLIPにおけるモーダル内ミスアライメントについて検討した。
トレーニング中に2つのモダリティを整合させるモダリティ間演算子と、モダリティ内正規化のみを強制するがモダリティ内アライメントを促進するものがない第2のモダリティ内演算子が存在することを示す。
- 参考スコア(独自算出の注目度): 27.03603756004017
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Vision-Language Models like CLIP are extensively used for inter-modal tasks which involve both visual and text modalities. However, when the individual modality encoders are applied to inherently intra-modal tasks like image-to-image retrieval, their performance suffers from the intra-modal misalignment. In this paper we study intra-modal misalignment in CLIP with a focus on the role of the projectors that map pre-projection image and text embeddings into the shared embedding space. By analyzing the form of the cosine similarity applied to projected features, and its interaction with the contrastive CLIP loss, we show that there is an inter-modal operator responsible for aligning the two modalities during training, and a second, intra-modal operator that only enforces intra-modal normalization but does nothing to promote intra-modal alignment. Via spectral analysis of the inter-modal operator, we identify an approximately isotropic subspace in which the two modalities are well-aligned, as well as anisotropic directions specific to each modality. We demonstrate that this aligned subspace can be directly obtained from the projector weights and that removing the anisotropic directions improves intra-modal alignment. Our experiments on intra-modal retrieval and classification benchmarks show that our training-free method reduces intra-modal misalignment, greatly lowers latency, and outperforms existing approaches across multiple pre-trained CLIP-like models. The code is publicly available at: https://github.com/simomagi/IsoCLIP.
- Abstract(参考訳): CLIPのような視覚言語モデルは、視覚とテキストの両方のモダリティを含むモーダル間タスクに広く使用されている。
しかし、画像と画像の検索のような本質的にモダリティ内タスクに個々のモダリティエンコーダを適用すると、その性能はモダリティ内ミスアライメントに悩まされる。
本稿では,プレジェクション画像とテキスト埋め込みを共有埋め込み空間にマッピングするプロジェクタの役割に着目し,CLIPにおけるモーダル内ミスアライメントについて検討する。
投影された特徴に適用されるコサイン類似性の形式と、対照的なCLIP損失との相互作用を解析することにより、トレーニング中に2つのモードを整合させるモード間演算子と、モーダル内正規化のみを強制するが、モーダル内アライメントを促進しない第2のモード内演算子が存在することを示す。
モーダル間作用素のスペクトル解析により、2つのモーダルが整列した略等方部分空間と、各モーダルに特有の異方性方向を同定する。
我々は、このアライメント部分空間がプロジェクター重みから直接得られることを示し、異方性方向の除去がモーダル内アライメントを改善することを示した。
モーダル内検索および分類ベンチマーク実験により、トレーニング不要な手法は、モーダル内ミスアライメントを低減し、遅延を大幅に低減し、複数の事前訓練されたCLIP様モデルにおいて既存のアプローチよりも優れた性能を示すことが示された。
コードは、https://github.com/simomagi/IsoCLIPで公開されている。
関連論文リスト
- Complementary and Contrastive Learning for Audio-Visual Segmentation [74.11434759171199]
本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。
提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
論文 参考訳(メタデータ) (2025-10-11T06:36:59Z) - Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - Cross the Gap: Exposing the Intra-modal Misalignment in CLIP via Modality Inversion [13.696706205837238]
CLIPのような事前訓練されたマルチモーダルビジョンランゲージモデルは、様々なアプリケーションで広く使われている。
これは本質的にはCLIPスタイルのモーダル間コントラスト損失によるもので、モーダル内制約を強制しないためである、と我々は主張する。
画像・画像・テキスト・テキスト検索のモーダル内タスクにおいて、これらのタスクを相互にアプローチすることで性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-02-06T17:58:59Z) - It's Not a Modality Gap: Characterizing and Addressing the Contrastive Gap [4.437949196235149]
CLIPのような2エンコーダコントラストモデルでは、モダリティギャップが報告されている。
これらの要因を全て考慮しても、対照的な損失は実際にトレーニング中にギャップを生じさせます。
この対照的なギャップがCLIP空間の低均一性に起因する証拠を提示する。
論文 参考訳(メタデータ) (2024-05-28T20:28:07Z) - Domain Aligned CLIP for Few-shot Classification [3.5326413171911555]
Domain Aligned CLIP (DAC) は、メインモデルを微調整することなく、ターゲット分布上のモーダル内(イメージ)とモーダル間アライメントの両方を改善する。
画像分類におけるDACの有効性について検討し,16ショット分類の精度を約2.3%向上させるとともに,11種類の画像分類タスクのベンチマークを行った。
論文 参考訳(メタデータ) (2023-11-15T18:34:26Z) - Continual Vision-Language Representation Learning with Off-Diagonal
Information [112.39419069447902]
CLIPのようなマルチモーダルなコントラスト学習フレームワークは通常、トレーニングに大量の画像テキストサンプルを必要とする。
本稿では,ストリーミングデータを用いた連続CLIPトレーニングの実現可能性について論じる。
論文 参考訳(メタデータ) (2023-05-11T08:04:46Z) - Amodal Intra-class Instance Segmentation: Synthetic Datasets and
Benchmark [17.6780586288079]
本稿では、画像アモーダル完了タスクのための2つの新しいアモーダルデータセットを提案する。
また,アモーダル・インスタンス・セグメンテーションのための事前レイヤを持つ点教師付きスキームを提案する。
実験により、我々の弱教師付きアプローチはSOTAの完全教師付き手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-03-12T07:28:36Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。