論文の概要: FineLIP: Extending CLIP's Reach via Fine-Grained Alignment with Longer Text Inputs
- arxiv url: http://arxiv.org/abs/2504.01916v1
- Date: Wed, 02 Apr 2025 17:19:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:25:57.462539
- Title: FineLIP: Extending CLIP's Reach via Fine-Grained Alignment with Longer Text Inputs
- Title(参考訳): FineLIP:より長いテキスト入力による細粒度アライメントによるCLIPのリーチの拡張
- Authors: Mothilal Asokan, Kebin Wu, Fatima Albreiki,
- Abstract要約: FineLIPは textbfFine の粒度のアライメントと textbfLonger のテキスト入力を組み込むことで、クロスモーダルなテキストイメージマッピングを強化する。
FineLIPはまず、より長いテキストを扱うために位置埋め込みを拡張し、続いてローカル画像とテキストトークンの動的集約を行う。
我々は、ゼロショット・クロスモーダル検索とテキスト・ツー・イメージ生成という2つのタスクにまたがって、長い詳細なキャプションを持つデータセット上でモデルを検証した。
- 参考スコア(独自算出の注目度): 0.351124620232225
- License:
- Abstract: As a pioneering vision-language model, CLIP (Contrastive Language-Image Pre-training) has achieved significant success across various domains and a wide range of downstream vision-language tasks. However, the text encoders in popular CLIP models are limited to processing only 77 text tokens, which constrains their ability to effectively handle longer, detail-rich captions. Additionally, CLIP models often struggle to effectively capture detailed visual and textual information, which hampers their performance on tasks that require fine-grained analysis. To address these limitations, we present a novel approach, \textbf{FineLIP}, that extends the capabilities of CLIP. FineLIP enhances cross-modal text-image mapping by incorporating \textbf{Fine}-grained alignment with \textbf{L}onger text input within the CL\textbf{IP}-style framework. FineLIP first extends the positional embeddings to handle longer text, followed by the dynamic aggregation of local image and text tokens. The aggregated results are then used to enforce fine-grained token-to-token cross-modal alignment. We validate our model on datasets with long, detailed captions across two tasks: zero-shot cross-modal retrieval and text-to-image generation. Quantitative and qualitative experimental results demonstrate the effectiveness of FineLIP, outperforming existing state-of-the-art approaches. Furthermore, comprehensive ablation studies validate the benefits of key design elements within FineLIP.
- Abstract(参考訳): 先駆的な視覚言語モデルとして、CLIP(Contrastive Language- Image Pre-Training)は様々な領域で大きな成功を収め、幅広い下流視覚言語タスクを実現している。
しかし、一般的なCLIPモデルのテキストエンコーダは77のテキストトークンしか処理できないため、より長く詳細に富んだキャプションを効果的に処理する能力は制限されている。
さらに、CLIPモデルは、詳細な視覚情報やテキスト情報を効果的にキャプチャするのに苦労することが多い。
これらの制限に対処するため、CLIPの機能を拡張する新しいアプローチである「textbf{FineLIP}」を提案する。
FineLIPは、CL\textbf{IP} スタイルのフレームワークに \textbf{Fine} の粒度のアライメントと \textbf{L}onger のテキスト入力を組み込むことで、クロスモーダルなテキストイメージマッピングを強化する。
FineLIPはまず、より長いテキストを扱うために位置埋め込みを拡張し、続いてローカル画像とテキストトークンの動的集約を行う。
集約された結果は、きめ細かいトークン・ツー・トケン・クロスモーダルアライメントを強制するために使用される。
我々は、ゼロショット・クロスモーダル検索とテキスト・ツー・イメージ生成という2つのタスクにまたがって、長い詳細なキャプションを持つデータセット上でモデルを検証した。
定量的および定性的な実験結果は、ファインLIPの有効性を示し、既存の最先端のアプローチよりも優れている。
さらに、包括的アブレーション研究は、FinLIPにおけるキーデザイン要素の利点を検証する。
関連論文リスト
- DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment [20.953645420787527]
計算コストのごく一部でCLIPライクなモデルをトレーニングする。
ゼロショット分類とオープンボキャブラリセマンティックセマンティックセグメンテーションの最先端結果を得る。
論文 参考訳(メタデータ) (2024-12-20T20:46:48Z) - DiffCLIP: Few-shot Language-driven Multimodal Classifier [19.145645804307566]
DiffCLIPはContrastive Language-Image Pretrainingを拡張する新しいフレームワークである。
高次元マルチモーダルリモートセンシング画像の正確な分類のための包括的言語駆動意味情報を提供する。
DiffCLIPはCLIPと比較して3つのリモートセンシングデータセットで10.65%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-12-10T02:21:39Z) - TULIP: Token-length Upgraded CLIP [57.818513403100326]
私たちは、CLIPのような視覚言語モデルで長いキャプションを表現するという課題に対処する。
これらのモデルは、固定された絶対的な位置符号化によって制限され、入力を最大77個のトークンに制限する。
トークン長を任意の長さにアップグレードできる一般化可能なT法を提案する。
論文 参考訳(メタデータ) (2024-10-13T22:34:15Z) - MTA-CLIP: Language-Guided Semantic Segmentation with Mask-Text Alignment [53.235290505274676]
CLIPのような大規模視覚言語モデルはセマンティックセグメンテーションのパフォーマンスを向上させることができる。
マスクレベルの視覚言語アライメントを利用した新しいフレームワークであるMTA-CLIPを紹介する。
MTA-CLIPは最先端を達成し、ベンチマークデータセットで平均2.8%と1.3%の先行研究を上回っている。
論文 参考訳(メタデータ) (2024-07-31T14:56:42Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - Long-CLIP: Unlocking the Long-Text Capability of CLIP [47.13547303843929]
Long-CLIPはContrastive Language-Image Pre-trainingに代わるプラグインとプレイである。
Long-CLIPは、長文入力をサポートし、ゼロショットの一般化性を維持または超える。
CLIPをプラグイン・アンド・プレイで置き換えることで、詳細なテキスト記述から画像を生成する機能が強化されている。
論文 参考訳(メタデータ) (2024-03-22T17:58:16Z) - LightCLIP: Learning Multi-Level Interaction for Lightweight
Vision-Language Models [45.672539931681065]
軽量CLIPモデルのトレーニングのためのマルチレベルインタラクションパラダイムを提案する。
マスク付きテキスト埋め込みに非マスク画像の埋め込みを注入する補助融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-01T15:54:55Z) - CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model [55.321010757641524]
CLIP4STRは,CLIPのイメージエンコーダとテキストエンコーダ上に構築された,シンプルで効果的なSTRメソッドである。
モデルサイズ、事前トレーニングデータ、トレーニングデータの観点からCLIP4STRをスケールし、13のSTRベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-23T12:51:20Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。