論文の概要: ProCLIP: Progressive Vision-Language Alignment via LLM-based Embedder
- arxiv url: http://arxiv.org/abs/2510.18795v1
- Date: Tue, 21 Oct 2025 16:48:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.934207
- Title: ProCLIP: Progressive Vision-Language Alignment via LLM-based Embedder
- Title(参考訳): ProCLIP: LLMベースの埋め込みによるプログレッシブビジョンランゲージアライメント
- Authors: Xiaoxing Hu, Kaicheng Yang, Ziyong Feng, Qi Ming, Zonghao Guo, Xiang An, Ziyong Feng, Junchi Yan, Xue Yang,
- Abstract要約: オリジナルのCLIPテキストエンコーダは77トークンの最大入力長で制限されている。
ProCLIPはカリキュラムベースのプログレッシブ・ビジョン言語アライメントフレームワークである。
- 参考スコア(独自算出の注目度): 51.11361080299977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The original CLIP text encoder is limited by a maximum input length of 77 tokens, which hampers its ability to effectively process long texts and perform fine-grained semantic understanding. In addition, the CLIP text encoder lacks support for multilingual inputs. All these limitations significantly restrict its applicability across a broader range of tasks. Recent studies have attempted to replace the CLIP text encoder with an LLM-based embedder to enhance its ability in processing long texts, multilingual understanding, and fine-grained semantic comprehension. However, because the representation spaces of LLMs and the vision-language space of CLIP are pretrained independently without alignment priors, direct alignment using contrastive learning can disrupt the intrinsic vision-language alignment in the CLIP image encoder, leading to an underutilization of the knowledge acquired during pre-training. To address this challenge, we propose ProCLIP, a curriculum learning-based progressive vision-language alignment framework to effectively align the CLIP image encoder with an LLM-based embedder. Specifically, ProCLIP first distills knowledge from CLIP's text encoder into the LLM-based embedder to leverage CLIP's rich pretrained knowledge while establishing initial alignment between the LLM embedder and CLIP image encoder. Subsequently, ProCLIP further aligns the CLIP image encoder with the LLM-based embedder through image-text contrastive tuning, employing self-distillation regularization to avoid overfitting. To achieve a more effective alignment, instance semantic alignment loss and embedding structure alignment loss are employed during representation inheritance and contrastive tuning. The Code is available at https://github.com/VisionXLab/ProCLIP
- Abstract(参考訳): オリジナルのCLIPテキストエンコーダは77トークンの最大入力長で制限されており、長文を効果的に処理し、きめ細かなセマンティック理解を行う能力を損なう。
さらに、CLIPテキストエンコーダは多言語入力をサポートしていない。
これらの制限は、幅広いタスクに適用性を大幅に制限します。
近年の研究では、CLIPテキストエンコーダをLLMベースの埋め込み器に置き換えて、長文処理、多言語理解、きめ細かい意味理解の能力を高めようとしている。
しかし、LLMの表現空間とCLIPの視覚言語空間は、アライメント先行なしで独立に事前訓練されるため、コントラスト学習を用いた直接アライメントは、CLIPイメージエンコーダの内在的な視覚言語アライメントを阻害し、事前トレーニング中に得られる知識の未利用化につながる。
この課題に対処するために,カリキュラムベースのプログレッシブ・ビジョン言語アライメント・フレームワークであるProCLIPを提案する。
具体的には、ProCLIPはまず、CLIPのテキストエンコーダからLLMベースのエンコーダに知識を蒸留し、CLIPの豊富な事前学習知識を活用しながら、LLMインバーダとCLIPイメージエンコーダの最初のアライメントを確立する。
その後、ProCLIPは画像テキストのコントラストチューニングを通じてCLIPイメージエンコーダとLLMベースのエンコーダを連携させ、自己蒸留正則化を用いてオーバーフィッティングを回避する。
より効果的なアライメントを実現するために、表現継承とコントラストチューニングの間、インスタンスセマンティックアライメントの損失と埋め込み構造アライメントの損失を用いる。
コードはhttps://github.com/VisionXLab/ProCLIPで入手できる。
関連論文リスト
- Language-Image Alignment with Fixed Text Encoders [28.898689028197005]
現在、言語と画像のアライメントを確立するための最も支配的なアプローチは、テキストと画像エンコーダを共同で事前訓練することである。
本研究では,事前学習した固定大言語モデル(LLM)が,視覚表現学習の指導に十分なテキストエンコーダを提供するかどうかを検討する。
論文 参考訳(メタデータ) (2025-06-04T17:51:56Z) - Exploring CLIP's Dense Knowledge for Weakly Supervised Semantic Segmentation [19.26516470653798]
画像レベルラベル付き弱スーパービジョンセマンティック(WSSS)は、クラスマップ(CAM)を用いた画素レベルの予測を実現することを目的としている。
最近の手法は主にCAM生成のための画像テキストアライメントに重点を置いているが、パッチテキストアライメントにおけるCLIPの可能性はいまだ解明されていない。
我々は,WSSS のパッチテキストアライメントパラダイムを通じて,CLIP の密集した知識を探索する ExCEL を提案する。
論文 参考訳(メタデータ) (2025-03-26T02:00:49Z) - LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [72.02635550088546]
この研究は、大規模言語モデル(LLM)がCLIPの機能をどのように強化するか、特により長く複雑なイメージキャプションを処理するために検討する。
キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラスト・ファインチューニング・フレームワークを導入し,LLM出力の識別品質を大幅に向上させた。
提案手法はLoRA法よりも優れ,より優れた性能で4倍近い高速トレーニングを実現している。
論文 参考訳(メタデータ) (2024-11-07T18:59:16Z) - Contrastive Localized Language-Image Pre-Training [60.4967533101887]
コントラスト言語-画像事前学習(CLIP)は、画像/テキスト表現を生成するために視覚エンコーダを訓練するための著名な方法である。
本稿では,CLIPとリージョンテキストのコントラッシブな損失とモジュールを補完することにより,CLOC(Contrastive Localized Language- Image Pre-Trening)を提案する。
CLOCは画像領域認識および検索タスクのための高品質な地域埋め込みを可能にする。
論文 参考訳(メタデータ) (2024-10-03T17:56:09Z) - Symmetrical Linguistic Feature Distillation with CLIP for Scene Text
Recognition [77.93678598476149]
CLIP-OCR(Symmetrical Linguistic Feature Distillation framework)を新たに構築する。
CLIP画像エンコーダを逆CLIPテキストエンコーダでカスケードすることにより、画像からテキストまでの特徴フローで対称構造を構築する。
大規模な実験では、CLIP-OCRが6つのSTRベンチマークで平均精度93.8%で有効であることが示されている。
論文 参考訳(メタデータ) (2023-10-08T04:00:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。