論文の概要: FIX-CLIP: Dual-Branch Hierarchical Contrastive Learning via Synthetic Captions for Better Understanding of Long Text
- arxiv url: http://arxiv.org/abs/2507.10095v2
- Date: Tue, 29 Jul 2025 02:40:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 14:59:51.354322
- Title: FIX-CLIP: Dual-Branch Hierarchical Contrastive Learning via Synthetic Captions for Better Understanding of Long Text
- Title(参考訳): FIX-CLIP:長文理解のための合成キャプションによる2分岐階層的コントラスト学習
- Authors: Bingchao Wang, Zhiwei Ning, Jianyu Ding, Xuanang Gao, Yin Li, Dongsheng Jiang, Jie Yang, Wei Liu,
- Abstract要約: 3つの新しいモジュールを含むFIX-CLIPを提案する。
ショートテキストとロングテキストをそれぞれマスクと生画像で整列するデュアルブランチトレーニングパイプライン。
地域情報抽出のためのトランスフォーマー層における一方向マスクを用いた複数の学習可能な地域プロンプト
- 参考スコア(独自算出の注目度): 13.888406804533535
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: CLIP has shown promising performance across many short-text tasks in a zero-shot manner. However, limited by the input length of the text encoder, CLIP struggles on under-stream tasks with long-text inputs ($>77$ tokens). To remedy this issue, we propose FIX-CLIP, which includes three novel modules: (1) A dual-branch training pipeline that aligns short and long texts with masked and raw images, respectively, which boosts the long-text representation while preserving the short-text ability. (2) Multiple learnable regional prompts with unidirectional masks in Transformer layers for regional information extraction. (3) A hierarchical feature alignment module in the intermediate encoder layers to promote the consistency of multi-scale features. Furthermore, we collect 30M images and utilize existing MLLMs to synthesize long-text captions for training. Extensive experiments show that FIX-CLIP achieves state-of-the-art performance on both long-text and short-text retrieval benchmarks. For downstream applications, we reveal that FIX-CLIP's text encoder delivers promising performance in a plug-and-play manner for diffusion models with long-text input. The code is available at https://github.com/bcwang-sjtu/Fix-CLIP.
- Abstract(参考訳): CLIPはゼロショット方式で、多くのショートテキストタスクで有望なパフォーマンスを示している。
しかし、テキストエンコーダの入力長によって制限されているCLIPは、長いテキスト入力(>77$トークン)を持つアンダーストリームタスクに苦労する。
この問題を解決するために,(1)短文と長文をそれぞれマスクと生画像で整列する二分岐学習パイプラインを,短文能力を保ちながら長文表現を促進させるという,3つの新しいモジュールを含むFIX-CLIPを提案する。
2) 地域情報抽出のためのトランスフォーマー層における一方向マスクを用いた複数の学習可能な地域プロンプト
(3) 中間エンコーダ層における階層的特徴アライメントモジュールは,マルチスケール機能の一貫性を促進する。
さらに,30万枚の画像を収集し,既存のMLLMを用いて長文キャプションを合成する。
拡張実験により、FIX-CLIPは、長文と短文の検索ベンチマークの両方で最先端のパフォーマンスを達成することが示された。
下流アプリケーションの場合、FIX-CLIPのテキストエンコーダは、長文入力を持つ拡散モデルに対して、プラグ・アンド・プレイ方式で有望な性能を提供する。
コードはhttps://github.com/bcwang-sjtu/Fix-CLIPで公開されている。
関連論文リスト
- FineLIP: Extending CLIP's Reach via Fine-Grained Alignment with Longer Text Inputs [0.351124620232225]
FineLIPは textbfFine の粒度のアライメントと textbfLonger のテキスト入力を組み込むことで、クロスモーダルなテキストイメージマッピングを強化する。
FineLIPはまず、より長いテキストを扱うために位置埋め込みを拡張し、続いてローカル画像とテキストトークンの動的集約を行う。
我々は、ゼロショット・クロスモーダル検索とテキスト・ツー・イメージ生成という2つのタスクにまたがって、長い詳細なキャプションを持つデータセット上でモデルを検証した。
論文 参考訳(メタデータ) (2025-04-02T17:19:59Z) - Focus, Distinguish, and Prompt: Unleashing CLIP for Efficient and Flexible Scene Text Retrieval [13.315951821189538]
シーンテキスト検索は、画像ギャラリーからクエリテキストを含むすべての画像を見つけることを目的としている。
現在の取り組みでは、複雑なテキスト検出および/または認識プロセスを必要とする光学文字認識(OCR)パイプラインを採用する傾向にある。
我々は,OCRのないシーンテキスト検索のためのCLIP(Contrastive Language- Image Pre-Trening)の本質的な可能性について検討する。
論文 参考訳(メタデータ) (2024-08-01T10:25:14Z) - MTA-CLIP: Language-Guided Semantic Segmentation with Mask-Text Alignment [53.235290505274676]
CLIPのような大規模視覚言語モデルはセマンティックセグメンテーションのパフォーマンスを向上させることができる。
マスクレベルの視覚言語アライメントを利用した新しいフレームワークであるMTA-CLIPを紹介する。
MTA-CLIPは最先端を達成し、ベンチマークデータセットで平均2.8%と1.3%の先行研究を上回っている。
論文 参考訳(メタデータ) (2024-07-31T14:56:42Z) - Out of Length Text Recognition with Sub-String Matching [54.63761108308825]
本稿では,このタスクをOOL(Out of Length)テキスト認識と呼ぶ。
サブ文字列マッチング(SMTR)を用いたOOLテキスト認識手法を提案する。
SMTRは2つのクロスアテンションベースのモジュールから構成される: 1つは複数の文字を含むサブストリングを次のクエリと前のクエリにエンコードし、もう1つは画像の特徴に対応するためにクエリを使用する。
論文 参考訳(メタデータ) (2024-07-17T05:02:17Z) - From Text to Pixel: Advancing Long-Context Understanding in MLLMs [70.78454154014989]
本稿では,この問題に対処するために設計された多モーダル大規模言語モデルであるSEEKERを紹介する。
SEEKERは、画像を介してテキストシーケンスを視覚ピクセル空間に圧縮することで、長文のコンパクトエンコーディングを最適化することを目的としている。
6つの長文マルチモーダルタスクに関する実験により、SEEKERは、OCRベースの手法と比較して、同じ量のテキスト情報を伝達するために、少ない画像トークンを利用できることを示した。
論文 参考訳(メタデータ) (2024-05-23T06:17:23Z) - An Empirical Study and Analysis of Text-to-Image Generation Using Large Language Model-Powered Textual Representation [21.154973705998945]
既存のメソッドは、入力プロンプトを表現するためにCLIPモデルのテキストエンコーダを利用する。
大規模言語モデル(LLM)は多言語入力を提供し、より長いコンテキストに対応し、優れたテキスト表現を実現する。
LLMのテキスト表現を用いたテキスト・ツー・イメージモデルの高速な訓練を可能にする軽量なアダプタを提案する。
論文 参考訳(メタデータ) (2024-05-21T16:35:02Z) - Long-CLIP: Unlocking the Long-Text Capability of CLIP [47.13547303843929]
Long-CLIPはContrastive Language-Image Pre-trainingに代わるプラグインとプレイである。
Long-CLIPは、長文入力をサポートし、ゼロショットの一般化性を維持または超える。
CLIPをプラグイン・アンド・プレイで置き換えることで、詳細なテキスト記述から画像を生成する機能が強化されている。
論文 参考訳(メタデータ) (2024-03-22T17:58:16Z) - LexLIP: Lexicon-Bottlenecked Language-Image Pre-Training for Large-Scale
Image-Text Retrieval [71.01982683581572]
従来の高密度検索パラダイムは、デュアルストリームエンコーダを用いて画像やテキストを高密度表現に符号化することに依存している。
本稿では,語彙空間における疎表現を画像やテキストに対して学習する語彙重み付けパラダイムを提案する。
重要度を意識した辞書表現を学習する新しい事前学習フレームワークを提案する。
我々のフレームワークは、検索速度5.5221.3倍、インデックス記憶メモリ13.248.8倍の高速化を実現している。
論文 参考訳(メタデータ) (2023-02-06T16:24:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。