Fugu-MT 論文翻訳(概要): Long-CLIP: Unlocking the Long-Text Capability of CLIP

論文の概要: Long-CLIP: Unlocking the Long-Text Capability of CLIP

arxiv url: http://arxiv.org/abs/2403.15378v3
Date: Mon, 22 Jul 2024 06:10:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-24 02:11:12.816606
Title: Long-CLIP: Unlocking the Long-Text Capability of CLIP
Title（参考訳）: Long-CLIP: CLIPの長文機能をアンロックする
Authors: Beichen Zhang, Pan Zhang, Xiaoyi Dong, Yuhang Zang, Jiaqi Wang,
Abstract要約: Long-CLIPはContrastive Language-Image Pre-trainingに代わるプラグインとプレイである。 Long-CLIPは、長文入力をサポートし、ゼロショットの一般化性を維持または超える。 CLIPをプラグイン・アンド・プレイで置き換えることで、詳細なテキスト記述から画像を生成する機能が強化されている。
参考スコア（独自算出の注目度）: 47.13547303843929
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Contrastive Language-Image Pre-training (CLIP) has been the cornerstone for zero-shot classification, text-image retrieval, and text-image generation by aligning image and text modalities. Despite its widespread adoption, a significant limitation of CLIP lies in the inadequate length of text input. The length of the text token is restricted to 77, and an empirical study shows the actual effective length is even less than 20. This prevents CLIP from handling detailed descriptions, limiting its applications for image retrieval and text-to-image generation with extensive prerequisites. To this end, we propose Long-CLIP as a plug-and-play alternative to CLIP that supports long-text input, retains or even surpasses its zero-shot generalizability, and aligns the CLIP latent space, making it readily replace CLIP without any further adaptation in downstream frameworks. Nevertheless, achieving this goal is far from straightforward, as simplistic fine-tuning can result in a significant degradation of CLIP's performance. Moreover, substituting the text encoder with a language model supporting longer contexts necessitates pretraining with vast amounts of data, incurring significant expenses. Accordingly, Long-CLIP introduces an efficient fine-tuning solution on CLIP with two novel strategies designed to maintain the original capabilities, including (1) a knowledge-preserved stretching of positional embedding and (2) a primary component matching of CLIP features. With leveraging just one million extra long text-image pairs, Long-CLIP has shown the superiority to CLIP for about 20% in long caption text-image retrieval and 6% in traditional text-image retrieval tasks, e.g., COCO and Flickr30k. Furthermore, Long-CLIP offers enhanced capabilities for generating images from detailed text descriptions by replacing CLIP in a plug-and-play manner.
Abstract（参考訳）: コントラスト言語-画像事前学習(CLIP)はゼロショット分類、テキスト画像検索、画像とテキストのモダリティの整列によるテキスト画像生成の基盤となっている。広く採用されているにもかかわらず、CLIPの大幅な制限はテキスト入力の不十分な長さにある。テキストトークンの長さは77に制限され、実証的研究により実際の有効長が20未満であることが示されている。これにより、CLIPは詳細な記述を処理できなくなり、画像検索やテキスト・ツー・イメージ生成への応用を広範囲の前提条件で制限する。この目的のために、Long-CLIPは、長文入力をサポートし、ゼロショットの一般化性を維持し、CLIPの潜在空間を調整し、下流フレームワークにさらなる適応なしにCLIPを置き換えることのできる、CLIPのプラグアンドプレイ代替品として提案する。それでもこの目標を達成するのは簡単ではない。単純化された微調整によってCLIPのパフォーマンスが大幅に低下する可能性があるからだ。さらに、長いコンテキストをサポートする言語モデルでテキストエンコーダを置換するには、大量のデータで事前学習する必要があるため、かなりの費用がかかる。そこでLong-CLIPは,(1)位置埋め込みの知識保存型ストレッチング,(2)CLIP機能の主成分マッチング,という2つの新しい手法により,CLIP上の効率的な微調整ソリューションを導入している。わずか100万の長文画像ペアを活用することで、Long-CLIPは、長文画像検索で約20%、従来のテキスト画像検索タスクで6%、例えば、COCO、Flickr30kでCLIPよりも優れていることを示した。さらに、Long-CLIPはCLIPをプラグアンドプレイで置き換えることで、詳細なテキスト記述から画像を生成する機能を強化している。

関連論文リスト

SuperCLIP: CLIP with Simple Classification Supervision [88.86549733903314]
Contrastive Language-Image Pretrainingは、画像とテキストを共有埋め込み空間に整列させることにより、視覚言語タスクの強力な一般化を実現する。近年,CLIP様モデルでは,テキスト中の微細なセマンティック信号が依然として使われていないことが報告されている。分類に基づく教師付きコントラスト学習のフレームワークであるSuperCLIPを提案する。
論文参考訳（メタデータ） (2025-12-16T15:11:53Z)
PixCLIP: Achieving Fine-grained Visual Language Understanding via Any-granularity Pixel-Text Alignment Learning [31.386303698437214]
本稿では,視覚的プロンプト入力と長文記述処理を同時に行うように設計された新しいフレームワークPixCLIPを提案する。我々は,CLIP のオリジナルテキストエンコーダを LLM に置き換え,三分岐画素テキストアライメント学習フレームワークを提案する。 PixCLIPは、ピクセルレベルのインタラクションと長文テキスト処理のブレークスルーを示し、最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-11-06T17:54:12Z)
ProCLIP: Progressive Vision-Language Alignment via LLM-based Embedder [50.25233123718465]
CLIPテキストエンコーダは77トークンの最大入力長で制限される。 ProCLIPはカリキュラムベースのプログレッシブ・ビジョン言語アライメントフレームワークである。
論文参考訳（メタデータ） (2025-10-21T16:48:49Z)
FIX-CLIP: Dual-Branch Hierarchical Contrastive Learning via Synthetic Captions for Better Understanding of Long Text [13.888406804533535]
3つの新しいモジュールを含むFIX-CLIPを提案する。ショートテキストとロングテキストをそれぞれマスクと生画像で整列するデュアルブランチトレーニングパイプライン。地域情報抽出のためのトランスフォーマー層における一方向マスクを用いた複数の学習可能な地域プロンプト
論文参考訳（メタデータ） (2025-07-14T09:31:34Z)
un$^2$CLIP: Improving CLIP's Visual Detail Capturing Ability via Inverting unCLIP [75.19266107565109]
コントラスト言語-画像事前学習(CLIP)が基礎モデルとなり、様々なビジョンやマルチモーダルタスクに適用されている。この作業は既存のCLIPモデルの改善に重点を置いており、可能な限り多くの画像の視覚的詳細をキャプチャすることを目的としている。
論文参考訳（メタデータ） (2025-05-30T12:29:38Z)
Distill CLIP (DCLIP): Enhancing Image-Text Retrieval via Cross-Modal Transformer Distillation [4.063715077687089]
Distill CLIP (DCLIP) はCLIPモデルの微調整版である。オリジナルのモデルの強力なゼロショット分類機能を保ちながら、マルチモーダルな画像テキスト検索を強化する。
論文参考訳（メタデータ） (2025-05-25T07:08:07Z)
FineLIP: Extending CLIP's Reach via Fine-Grained Alignment with Longer Text Inputs [0.351124620232225]
FineLIPは textbfFine の粒度のアライメントと textbfLonger のテキスト入力を組み込むことで、クロスモーダルなテキストイメージマッピングを強化する。 FineLIPはまず、より長いテキストを扱うために位置埋め込みを拡張し、続いてローカル画像とテキストトークンの動的集約を行う。我々は、ゼロショット・クロスモーダル検索とテキスト・ツー・イメージ生成という2つのタスクにまたがって、長い詳細なキャプションを持つデータセット上でモデルを検証した。
論文参考訳（メタデータ） (2025-04-02T17:19:59Z)
TULIP: Token-length Upgraded CLIP [57.818513403100326]
私たちは、CLIPのような視覚言語モデルで長いキャプションを表現するという課題に対処する。これらのモデルは、固定された絶対的な位置符号化によって制限され、入力を最大77個のトークンに制限する。トークン長を任意の長さにアップグレードできる一般化可能なT法を提案する。
論文参考訳（メタデータ） (2024-10-13T22:34:15Z)
Symmetrical Linguistic Feature Distillation with CLIP for Scene Text Recognition [77.93678598476149]
CLIP-OCR(Symmetrical Linguistic Feature Distillation framework)を新たに構築する。 CLIP画像エンコーダを逆CLIPテキストエンコーダでカスケードすることにより、画像からテキストまでの特徴フローで対称構造を構築する。大規模な実験では、CLIP-OCRが6つのSTRベンチマークで平均精度93.8%で有効であることが示されている。
論文参考訳（メタデータ） (2023-10-08T04:00:20Z)
Linear Alignment of Vision-language Models for Image Captioning [8.921774238325566]
本稿では,ReCapと呼ばれる軽量キャプション手法を提案する。また,CLIPスコアに基づく2つの新しい学習ベース画像キャプチャーメトリクスと,提案したアライメントを提案する。
論文参考訳（メタデータ） (2023-07-10T17:59:21Z)
Improving CLIP Training with Language Rewrites [57.935517901210225]
言語書き換えによるCLIPトレーニングを強化するために,Language augmented CLIP (LaCLIP)を導入した。また,LaCLIPは,学習中に計算やメモリオーバーヘッドを伴わずに転送性能を大幅に向上することを示した。 ImageNetゼロショット精度では、LaCLIPはCC12MでCLIPを8.2%、LAION-400Mで2.4%上回る。
論文参考訳（メタデータ） (2023-05-31T17:59:04Z)
LexLIP: Lexicon-Bottlenecked Language-Image Pre-Training for Large-Scale Image-Text Retrieval [71.01982683581572]
従来の高密度検索パラダイムは、デュアルストリームエンコーダを用いて画像やテキストを高密度表現に符号化することに依存している。本稿では,語彙空間における疎表現を画像やテキストに対して学習する語彙重み付けパラダイムを提案する。重要度を意識した辞書表現を学習する新しい事前学習フレームワークを提案する。我々のフレームワークは、検索速度5.5221.3倍、インデックス記憶メモリ13.248.8倍の高速化を実現している。
論文参考訳（メタデータ） (2023-02-06T16:24:41Z)
CLIP2GAN: Towards Bridging Text with the Latent Space of GANs [128.47600914674985]
本稿では,CLIPモデルとStyleGANを利用した新しいフレームワークであるCLIP2GANを提案する。 CLIP2GANのキーとなるアイデアは、CLIPの出力機能埋め込みスペースとStyleGANの入力潜在スペースをブリッジすることです。
論文参考訳（メタデータ） (2022-11-28T04:07:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。