論文の概要: Long-CLIP: Unlocking the Long-Text Capability of CLIP
- arxiv url: http://arxiv.org/abs/2403.15378v2
- Date: Thu, 23 May 2024 13:48:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 05:59:52.792083
- Title: Long-CLIP: Unlocking the Long-Text Capability of CLIP
- Title(参考訳): Long-CLIP: CLIPの長文機能をアンロックする
- Authors: Beichen Zhang, Pan Zhang, Xiaoyi Dong, Yuhang Zang, Jiaqi Wang,
- Abstract要約: Long-CLIPはContrastive Language-Image Pre-trainingに代わるプラグインとプレイである。
Long-CLIPは、長文入力をサポートし、ゼロショットの一般化性を維持または超える。
CLIPをプラグイン・アンド・プレイで置き換えることで、詳細なテキスト記述から画像を生成する機能が強化されている。
- 参考スコア(独自算出の注目度): 47.13547303843929
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Language-Image Pre-training (CLIP) has been the cornerstone for zero-shot classification, text-image retrieval, and text-image generation by aligning image and text modalities. Despite its widespread adoption, a significant limitation of CLIP lies in the inadequate length of text input. The length of the text token is restricted to 77, and an empirical study shows the actual effective length is even less than 20. This prevents CLIP from handling detailed descriptions, limiting its applications for image retrieval and text-to-image generation with extensive prerequisites. To this end, we propose Long-CLIP as a plug-and-play alternative to CLIP that supports long-text input, retains or even surpasses its zero-shot generalizability, and aligns the CLIP latent space, making it readily replace CLIP without any further adaptation in downstream frameworks. Nevertheless, achieving this goal is far from straightforward, as simplistic fine-tuning can result in a significant degradation of CLIP's performance. Moreover, substituting the text encoder with a language model supporting longer contexts necessitates pretraining with vast amounts of data, incurring significant expenses. Accordingly, Long-CLIP introduces an efficient fine-tuning solution on CLIP with two novel strategies designed to maintain the original capabilities, including (1) a knowledge-preserved stretching of positional embedding and (2) a primary component matching of CLIP features. With leveraging just one million extra long text-image pairs, Long-CLIP has shown the superiority to CLIP for about 20% in long caption text-image retrieval and 6% in traditional text-image retrieval tasks, e.g., COCO and Flickr30k. Furthermore, Long-CLIP offers enhanced capabilities for generating images from detailed text descriptions by replacing CLIP in a plug-and-play manner.
- Abstract(参考訳): コントラスト言語-画像事前学習(CLIP)はゼロショット分類、テキスト画像検索、画像とテキストのモダリティの整列によるテキスト画像生成の基盤となっている。
広く採用されているにもかかわらず、CLIPの大幅な制限はテキスト入力の不十分な長さにある。
テキストトークンの長さは77に制限され、実証的研究により実際の有効長が20未満であることが示されている。
これにより、CLIPは詳細な記述を処理できなくなり、画像検索やテキスト・ツー・イメージ生成への応用を広範囲の前提条件で制限する。
この目的のために、Long-CLIPは、長文入力をサポートし、ゼロショットの一般化性を維持し、CLIPの潜在空間を調整し、下流フレームワークにさらなる適応なしにCLIPを置き換えることのできる、CLIPのプラグアンドプレイ代替品として提案する。
それでもこの目標を達成するのは簡単ではない。単純化された微調整によってCLIPのパフォーマンスが大幅に低下する可能性があるからだ。
さらに、長いコンテキストをサポートする言語モデルでテキストエンコーダを置換するには、大量のデータで事前学習する必要があるため、かなりの費用がかかる。
そこでLong-CLIPは,(1)位置埋め込みの知識保存型ストレッチング,(2)CLIP機能の主成分マッチング,という2つの新しい手法により,CLIP上の効率的な微調整ソリューションを導入している。
わずか100万の長文画像ペアを活用することで、Long-CLIPは、長文画像検索で約20%、従来のテキスト画像検索タスクで6%、例えば、COCO、Flickr30kでCLIPよりも優れていることを示した。
さらに、Long-CLIPはCLIPをプラグアンドプレイで置き換えることで、詳細なテキスト記述から画像を生成する機能を強化している。
関連論文リスト
- TULIP: Token-length Upgraded CLIP [57.818513403100326]
私たちは、CLIPのような視覚言語モデルで長いキャプションを表現するという課題に対処する。
これらのモデルは、固定された絶対的な位置符号化によって制限され、入力を最大77個のトークンに制限する。
トークン長を任意の長さにアップグレードできる一般化可能なT法を提案する。
論文 参考訳(メタデータ) (2024-10-13T22:34:15Z) - Symmetrical Linguistic Feature Distillation with CLIP for Scene Text
Recognition [77.93678598476149]
CLIP-OCR(Symmetrical Linguistic Feature Distillation framework)を新たに構築する。
CLIP画像エンコーダを逆CLIPテキストエンコーダでカスケードすることにより、画像からテキストまでの特徴フローで対称構造を構築する。
大規模な実験では、CLIP-OCRが6つのSTRベンチマークで平均精度93.8%で有効であることが示されている。
論文 参考訳(メタデータ) (2023-10-08T04:00:20Z) - Improving CLIP Training with Language Rewrites [57.935517901210225]
言語書き換えによるCLIPトレーニングを強化するために,Language augmented CLIP (LaCLIP)を導入した。
また,LaCLIPは,学習中に計算やメモリオーバーヘッドを伴わずに転送性能を大幅に向上することを示した。
ImageNetゼロショット精度では、LaCLIPはCC12MでCLIPを8.2%、LAION-400Mで2.4%上回る。
論文 参考訳(メタデータ) (2023-05-31T17:59:04Z) - LexLIP: Lexicon-Bottlenecked Language-Image Pre-Training for Large-Scale
Image-Text Retrieval [71.01982683581572]
従来の高密度検索パラダイムは、デュアルストリームエンコーダを用いて画像やテキストを高密度表現に符号化することに依存している。
本稿では,語彙空間における疎表現を画像やテキストに対して学習する語彙重み付けパラダイムを提案する。
重要度を意識した辞書表現を学習する新しい事前学習フレームワークを提案する。
我々のフレームワークは、検索速度5.5221.3倍、インデックス記憶メモリ13.248.8倍の高速化を実現している。
論文 参考訳(メタデータ) (2023-02-06T16:24:41Z) - CLIP2GAN: Towards Bridging Text with the Latent Space of GANs [128.47600914674985]
本稿では,CLIPモデルとStyleGANを利用した新しいフレームワークであるCLIP2GANを提案する。
CLIP2GANのキーとなるアイデアは、CLIPの出力機能埋め込みスペースとStyleGANの入力潜在スペースをブリッジすることです。
論文 参考訳(メタデータ) (2022-11-28T04:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。