論文の概要: Distill CLIP (DCLIP): Enhancing Image-Text Retrieval via Cross-Modal Transformer Distillation
- arxiv url: http://arxiv.org/abs/2505.21549v2
- Date: Thu, 29 May 2025 03:53:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 13:10:25.766227
- Title: Distill CLIP (DCLIP): Enhancing Image-Text Retrieval via Cross-Modal Transformer Distillation
- Title(参考訳): Distill CLIP (DCLIP): クロスモーダルトランスフォーマー蒸留による画像テキスト検索の強化
- Authors: Daniel Csizmadia, Andrei Codreanu, Victor Sim, Vighnesh Prabhu, Michael Lu, Kevin Zhu, Sean O'Brien, Vasu Sharma,
- Abstract要約: Distill CLIP (DCLIP) はCLIPモデルの微調整版である。
オリジナルのモデルの強力なゼロショット分類機能を保ちながら、マルチモーダルな画像テキスト検索を強化する。
- 参考スコア(独自算出の注目度): 4.063715077687089
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Distill CLIP (DCLIP), a fine-tuned variant of the CLIP model that enhances multimodal image-text retrieval while preserving the original model's strong zero-shot classification capabilities. CLIP models are typically constrained by fixed image resolutions and limited context, which can hinder their effectiveness in retrieval tasks that require fine-grained cross-modal understanding. DCLIP addresses these challenges through a meta teacher-student distillation framework, where a cross-modal transformer teacher is fine-tuned to produce enriched embeddings via bidirectional cross-attention between YOLO-extracted image regions and corresponding textual spans. These semantically and spatially aligned global representations guide the training of a lightweight student model using a hybrid loss that combines contrastive learning and cosine similarity objectives. Despite being trained on only ~67,500 samples curated from MSCOCO, Flickr30k, and Conceptual Captions-just a fraction of CLIP's original dataset-DCLIP significantly improves image-text retrieval metrics (Recall@K, MAP), while retaining approximately 94% of CLIP's zero-shot classification performance. These results demonstrate that DCLIP effectively mitigates the trade-off between task specialization and generalization, offering a resource-efficient, domain-adaptive, and detail-sensitive solution for advanced vision-language tasks. Code available at https://anonymous.4open.science/r/DCLIP-B772/README.md.
- Abstract(参考訳): 元のモデルの強力なゼロショット分類能力を保ちながら、マルチモーダルな画像テキスト検索を強化するCLIPモデルの微調整版であるDistill CLIP(DCLIP)を提案する。
CLIPモデルは、通常、固定された画像解像度と制限されたコンテキストによって制約されるため、細粒度のクロスモーダル理解を必要とする検索タスクにおいて、その効果を阻害する可能性がある。
DCLIPはメタ・教師・学生の蒸留フレームワークを通じてこれらの課題に対処し、ヨロ抽出画像領域と対応するテキストスパン間の双方向の相互アテンションを通して、クロスモーダル・トランスフォーマーの教師を微調整してリッチな埋め込みを生成する。
これらの意味的かつ空間的に整合したグローバル表現は、コントラスト学習とコサイン類似性目的を組み合わせたハイブリッド損失を用いて、軽量な学生モデルの訓練を導く。
MSCOCO、Flickr30k、Conceptual Captions(CLIPのオリジナルのデータセット-DCLIPのごく一部)からキュレートされた約67,500のサンプルでトレーニングされているにもかかわらず、CLIPのゼロショット分類性能の約94%を維持しながら、画像テキスト検索メトリクス(Recall@K, MAP)を著しく改善している。
これらの結果は、DCLIPがタスクの特殊化と一般化のトレードオフを効果的に軽減し、高度な視覚言語タスクに対するリソース効率、ドメイン適応性、詳細性のあるソリューションを提供することを示す。
コードはhttps://anonymous.4open.science/r/DCLIP-B772/README.mdで公開されている。
関連論文リスト
- FG-CLIP: Fine-Grained Visual and Textual Alignment [3.830067625507938]
本稿では,3つの重要なイノベーションを通じて微細な理解を深めるファイングラインドCLIPを提案する。
我々は、大容量マルチモーダルモデルを用いて、世界レベルのセマンティックディテールをキャプチャするために、160億の長いキャプションイメージペアを生成する。
我々は、高品質な領域固有のアノテーションと、きめ細かい負のサンプルを統合することで、FinHARDと呼ばれる包括的データセットを構築した。
論文 参考訳(メタデータ) (2025-05-08T09:06:53Z) - DiffCLIP: Few-shot Language-driven Multimodal Classifier [19.145645804307566]
DiffCLIPはContrastive Language-Image Pretrainingを拡張する新しいフレームワークである。
高次元マルチモーダルリモートセンシング画像の正確な分類のための包括的言語駆動意味情報を提供する。
DiffCLIPはCLIPと比較して3つのリモートセンシングデータセットで10.65%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-12-10T02:21:39Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - Linear Alignment of Vision-language Models for Image Captioning [8.921774238325566]
本稿では,ReCapと呼ばれる軽量キャプション手法を提案する。
また,CLIPスコアに基づく2つの新しい学習ベース画像キャプチャーメトリクスと,提案したアライメントを提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:21Z) - Improving CLIP Training with Language Rewrites [57.935517901210225]
言語書き換えによるCLIPトレーニングを強化するために,Language augmented CLIP (LaCLIP)を導入した。
また,LaCLIPは,学習中に計算やメモリオーバーヘッドを伴わずに転送性能を大幅に向上することを示した。
ImageNetゼロショット精度では、LaCLIPはCC12MでCLIPを8.2%、LAION-400Mで2.4%上回る。
論文 参考訳(メタデータ) (2023-05-31T17:59:04Z) - S-CLIP: Semi-supervised Vision-Language Learning using Few Specialist
Captions [69.01985134519244]
対照的な言語画像事前学習(CLIP)のような視覚言語モデルは、自然画像領域において顕著な結果を示した。
S-CLIPはCLIPを訓練するための半教師付き学習手法であり、追加の未ペア画像を利用する。
S-CLIPは、ゼロショット分類でCLIPを10%改善し、リモートセンシングベンチマークで画像テキスト検索で4%改善した。
論文 参考訳(メタデータ) (2023-05-23T14:18:11Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。