論文の概要: PixCLIP: Achieving Fine-grained Visual Language Understanding via Any-granularity Pixel-Text Alignment Learning
- arxiv url: http://arxiv.org/abs/2511.04601v1
- Date: Thu, 06 Nov 2025 17:54:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.54597
- Title: PixCLIP: Achieving Fine-grained Visual Language Understanding via Any-granularity Pixel-Text Alignment Learning
- Title(参考訳): PixCLIP: 任意の粒度のPixel-Textアライメント学習によるきめ細かいビジュアル言語理解の実現
- Authors: Yicheng Xiao, Yu Chen, Haoxuan Ma, Jiale Hong, Caorui Li, Lingxiang Wu, Haiyun Guo, Jinqiao Wang,
- Abstract要約: 本稿では,視覚的プロンプト入力と長文記述処理を同時に行うように設計された新しいフレームワークPixCLIPを提案する。
我々は,CLIP のオリジナルテキストエンコーダを LLM に置き換え,三分岐画素テキストアライメント学習フレームワークを提案する。
PixCLIPは、ピクセルレベルのインタラクションと長文テキスト処理のブレークスルーを示し、最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 31.386303698437214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While the Contrastive Language-Image Pretraining(CLIP) model has achieved remarkable success in a variety of downstream vison language understanding tasks, enhancing its capability for fine-grained image-text alignment remains an active research focus. To this end, most existing works adopt the strategy of explicitly increasing the granularity of visual information processing, e.g., incorporating visual prompts to guide the model focus on specific local regions within the image. Meanwhile, researches on Multimodal Large Language Models(MLLMs) have demonstrated that training with long and detailed textual descriptions can effectively improve the model's fine-grained vision-language alignment. However, the inherent token length limitation of CLIP's text encoder fundamentally limits CLIP to process more granular textual information embedded in long text sequences. To synergistically leverage the advantages of enhancing both visual and textual content processing granularity, we propose PixCLIP, a novel framework designed to concurrently accommodate visual prompt inputs and process lengthy textual descriptions. Specifically, we first establish an automated annotation pipeline capable of generating pixel-level localized, long-form textual descriptions for images. Utilizing this pipeline, we construct LongGRIT, a high-quality dataset comprising nearly 1.5 million samples. Secondly, we replace CLIP's original text encoder with the LLM and propose a three-branch pixel-text alignment learning framework, facilitating fine-grained alignment between image regions and corresponding textual descriptions at arbitrary granularity. Experiments demonstrate that PixCLIP showcases breakthroughs in pixel-level interaction and handling long-form texts, achieving state-of-the-art performance.
- Abstract(参考訳): Contrastive Language- Image Pretraining (CLIP) モデルは、様々なダウンストリームバイソン言語理解タスクにおいて顕著な成功を収めてきたが、微細な画像テキストアライメントの能力の向上は、現在も活発な研究の焦点となっている。
この目的のために、既存のほとんどの作品では、視覚情報処理の粒度を明示的に増加させる戦略を採用しており、例えば、画像内の特定の局所領域に焦点を合わせるために視覚的プロンプトを取り入れている。
一方、MLLM(Multimodal Large Language Models)の研究は、長く詳細なテキストによる記述によるトレーニングが、モデルの微細な視覚言語アライメントを効果的に改善できることを示した。
しかし、CLIPのテキストエンコーダの固有のトークン長制限により、CLIPは長いテキストシーケンスに埋め込まれたより粒度の細かいテキスト情報を処理することができる。
視覚的およびテキスト的コンテンツ処理の粒度を向上する利点を相乗的に活用するために,視覚的プロンプト入力と長文記述の処理を同時に行うように設計された新しいフレームワークPixCLIPを提案する。
具体的には、まず、画像の局所化、長文記述を生成できる自動アノテーションパイプラインを確立する。
このパイプラインを利用することで、150万近いサンプルからなる高品質なデータセットであるLongGRITを構築します。
次に,CLIP のオリジナルテキストエンコーダを LLM に置き換え,画像領域と対応するテキスト記述との微粒なアライメントを任意の粒度で容易に行える3分岐画素テキストアライメント学習フレームワークを提案する。
PixCLIPは、ピクセルレベルのインタラクションと長文テキスト処理のブレークスルーを示し、最先端のパフォーマンスを実現している。
関連論文リスト
- FineLIP: Extending CLIP's Reach via Fine-Grained Alignment with Longer Text Inputs [0.351124620232225]
FineLIPは textbfFine の粒度のアライメントと textbfLonger のテキスト入力を組み込むことで、クロスモーダルなテキストイメージマッピングを強化する。
FineLIPはまず、より長いテキストを扱うために位置埋め込みを拡張し、続いてローカル画像とテキストトークンの動的集約を行う。
我々は、ゼロショット・クロスモーダル検索とテキスト・ツー・イメージ生成という2つのタスクにまたがって、長い詳細なキャプションを持つデータセット上でモデルを検証した。
論文 参考訳(メタデータ) (2025-04-02T17:19:59Z) - GOAL: Global-local Object Alignment Learning [7.9061560322289335]
CLIPのようなビジョン言語モデルは、画像とテキストを整列する素晴らしい機能を示している。
短いキャプションと簡潔なキャプションに焦点が当てられているため、長い詳細な文章の記述に苦しむことが多い。
本稿では,CLIPの長文処理能力を高める新しい微調整手法であるGOALを提案する。
論文 参考訳(メタデータ) (2025-03-22T14:27:32Z) - FLAIR: VLM with Fine-grained Language-informed Image Representations [49.2684130383925]
FLAIRは、局所的な画像埋め込みを学ぶために、長く詳細な画像記述を利用するアプローチである。
実験では,30M画像テキスト対を用いたFLAIRによる微細な視覚情報収集の有効性を実証した。
論文 参考訳(メタデータ) (2024-12-04T18:56:04Z) - Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - From Text to Pixel: Advancing Long-Context Understanding in MLLMs [70.78454154014989]
本稿では,この問題に対処するために設計された多モーダル大規模言語モデルであるSEEKERを紹介する。
SEEKERは、画像を介してテキストシーケンスを視覚ピクセル空間に圧縮することで、長文のコンパクトエンコーディングを最適化することを目的としている。
6つの長文マルチモーダルタスクに関する実験により、SEEKERは、OCRベースの手法と比較して、同じ量のテキスト情報を伝達するために、少ない画像トークンを利用できることを示した。
論文 参考訳(メタデータ) (2024-05-23T06:17:23Z) - TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding [91.30065932213758]
大規模マルチモーダルモデル(LMM)は、その顕著な推論能力を活用することを目的とした研究の急増を引き起こした。
テキストリッチな画像理解のための新しいChain-of-ThoughtフレームワークであるTextCoTを提案する。
私たちのメソッドは追加のトレーニングが不要で、即時プラグアンドプレイ機能を提供します。
論文 参考訳(メタデータ) (2024-04-15T13:54:35Z) - Vision-Aware Text Features in Referring Image Segmentation: From Object Understanding to Context Understanding [26.768147543628096]
本稿では,人間の認知プロセスに触発された対象と文脈の理解を強調する新しい枠組みを提案する。
提案手法は,3つのベンチマークデータセットにおいて,大幅な性能向上を実現する。
論文 参考訳(メタデータ) (2024-04-12T16:38:48Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。