論文の概要: SeMoBridge: Semantic Modality Bridge for Efficient Few-Shot Adaptation of CLIP
- arxiv url: http://arxiv.org/abs/2509.26036v2
- Date: Wed, 01 Oct 2025 09:18:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.840441
- Title: SeMoBridge: Semantic Modality Bridge for Efficient Few-Shot Adaptation of CLIP
- Title(参考訳): SeMoBridge:CLIPの効率的なFew-Shot適応のためのセマンティックモダリティブリッジ
- Authors: Christoph Timmermann, Hyunse Lee, Woojin Lee,
- Abstract要約: 私たちはSeMoBridgeを紹介します。これは軽量でパワフルなアプローチで、このミスアライメントに直接対処します。
本手法は,セマンティック・モダリティ・ブリッジ (Semantic Modality Bridge) と呼ばれるものを通して,画像のセマンティック・モダリティを保ちながら,画像をテキスト・モダリティにマッピングする。
実験によると、トレーニングされたバージョンであるSeMoBridge-Tは、トレーニング時間のごく一部しか必要とせず、全体として他のメソッドよりも優れています。
- 参考スコア(独自算出の注目度): 6.427791334895624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Contrastive Language-Image Pretraining (CLIP) excels at zero-shot tasks by aligning image and text embeddings, its performance in few-shot classification is hindered by a critical limitation: intra-modal misalignment. This issue, caused by a persistent modality gap and CLIP's exclusively inter-modal training objective, leaves the embedding spaces uncalibrated, making direct image-to-image comparisons unreliable. Existing methods attempt to address this by refining similarity logits or by computationally expensive per-sample optimization. To overcome these challenges, we introduce SeMoBridge, a lightweight yet powerful approach that directly addresses the misalignment. Our method maps images into the text modality, while keeping their semantic content intact through what we call a Semantic Modality Bridge. SeMoBridge is closed-form and can optionally be trained through multi-modal supervision, combining image and text-alignment losses to optimize the projection. Experiments show that the trained version, SeMoBridge-T, requires only a fraction of the training time while overall outperforming other methods, particularly in low-data scenarios (1, 2, and 4 shots). The code is available at https://github.com/christti98/semobridge.
- Abstract(参考訳): Contrastive Language-Image Pretraining (CLIP) は、画像とテキストの埋め込みを整列することでゼロショットタスクに優れるが、少数ショット分類のパフォーマンスは、モダル内ミスアライメントの限界によって妨げられる。
この問題は、永続的なモダリティギャップとCLIPの専らモーダル間トレーニングの目的によって引き起こされ、埋め込み空間は校正されず、画像と画像の直接比較は信頼できない。
既存の手法では、類似性ロジットの精細化や、計算コストのかかるサンプルごとの最適化によってこの問題に対処しようとする。
これらの課題を克服するために、私たちはSeMoBridgeを紹介します。
本手法は,セマンティック・モダリティ・ブリッジ (Semantic Modality Bridge) と呼ばれる手法を用いて,画像をテキスト・モダリティにマッピングし,セマンティック・モダリティ・ブリッジ (Semantic Modality Bridge) と呼ぶものを通してセマンティック・コンテントをそのまま維持する。
SeMoBridgeはクローズドフォーマットで、画像とテキストアライメントの損失を組み合わせてプロジェクションを最適化することで、マルチモーダル監視を通じて任意にトレーニングすることができる。
実験によると、トレーニングされたバージョンであるSeMoBridge-Tは、トレーニング時間のごく一部しか必要とせず、他のメソッド、特にローデータシナリオ(1、2、4ショット)では、全体的なパフォーマンスが向上している。
コードはhttps://github.com/christti98/semobridge.comで公開されている。
関連論文リスト
- Post-pre-training for Modality Alignment in Vision-Language Foundation Models [12.110530026601968]
本稿では,CLIPモデルの事前学習と微調整の段階における事前学習手法であるCLIP-Refineを提案する。
ゼロショットのパフォーマンス劣化を伴わずに、小さな画像テキストデータセットに対する1エポックトレーニングとフィーチャースペースの整合性を目指す。
論文 参考訳(メタデータ) (2025-04-17T07:46:19Z) - I0T: Embedding Standardization Method Towards Zero Modality Gap [18.032635790176464]
Contrastive Language-Image Pretraining (CLIP)は、画像テキスト検索や分類などの下流タスクにおけるゼロショット推論を可能にする。
CLIPを拡張する最近の作業は、モダリティギャップの問題に悩まされている。
本稿では,モダリティギャップに対処する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-12-18T22:35:01Z) - TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - Multimodal Unlearnable Examples: Protecting Data against Multimodal Contrastive Learning [53.766434746801366]
マルチモーダル・コントラッシブ・ラーニング (MCL) は、インターネットから何百万ものイメージ・キャプション・ペアから学習することで、ゼロショット分類において顕著な進歩を見せている。
ハッカーは、個人やプライバシーに敏感な情報を含む、モデルトレーニングのために画像テキストデータを不正に活用する可能性がある。
近年の研究では、保護のためのショートカットを構築するための訓練画像に知覚不能な摂動を加えることで、学習不可能な例を生成することを提案する。
マルチステップ誤り最小化(MEM)を提案する。
論文 参考訳(メタデータ) (2024-07-23T09:00:52Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Black Box Few-Shot Adaptation for Vision-Language models [41.49584259596654]
ヴィジュアル・ランゲージ(V-L)モデルは、視覚的・言語的モダリティを整合させるために、対照的な学習で訓練された。
本稿では,プリコンパイルされた画像とテキストの特徴に基づいて,V-L小ショット適応のためのブラックボックス手法について述べる。
対象領域におけるV-L再アライメントに対する単純な線形アプローチである線形特徴アライメント(LFA)を提案する。
論文 参考訳(メタデータ) (2023-04-04T12:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。