Fugu-MT 論文翻訳(概要): Contrastive Localized Language-Image Pre-Training

論文の概要: Contrastive Localized Language-Image Pre-Training

arxiv url: http://arxiv.org/abs/2410.02746v1
Date: Thu, 3 Oct 2024 17:56:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-04 01:03:22.947681
Title: Contrastive Localized Language-Image Pre-Training
Title（参考訳）: コントラスト型ローカライズド言語-画像事前学習
Authors: Hong-You Chen, Zhengfeng Lai, Haotian Zhang, Xinze Wang, Marcin Eichner, Keen You, Meng Cao, Bowen Zhang, Yinfei Yang, Zhe Gan,
Abstract要約: コントラスト言語-画像事前学習(CLIP)は、画像/テキスト表現を生成するために視覚エンコーダを訓練するための著名な方法である。本稿では,CLIPとリージョンテキストのコントラッシブな損失とモジュールを補完することにより,CLOC(Contrastive Localized Language- Image Pre-Trening)を提案する。 CLOCは画像領域認識および検索タスクのための高品質な地域埋め込みを可能にする。
参考スコア（独自算出の注目度）: 60.4967533101887
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Contrastive Language-Image Pre-training (CLIP) has been a celebrated method for training vision encoders to generate image/text representations facilitating various applications. Recently, CLIP has been widely adopted as the vision backbone of multimodal large language models (MLLMs) to connect image inputs for language interactions. The success of CLIP as a vision-language foundation model relies on aligning web-crawled noisy text annotations at image levels. Nevertheless, such criteria may become insufficient for downstream tasks in need of fine-grained vision representations, especially when region-level understanding is demanding for MLLMs. In this paper, we improve the localization capability of CLIP with several advances. We propose a pre-training method called Contrastive Localized Language-Image Pre-training (CLOC) by complementing CLIP with region-text contrastive loss and modules. We formulate a new concept, promptable embeddings, of which the encoder produces image embeddings easy to transform into region representations given spatial hints. To support large-scale pre-training, we design a visually-enriched and spatially-localized captioning framework to effectively generate region-text pseudo-labels at scale. By scaling up to billions of annotated images, CLOC enables high-quality regional embeddings for image region recognition and retrieval tasks, and can be a drop-in replacement of CLIP to enhance MLLMs, especially on referring and grounding tasks.
Abstract（参考訳）: Contrastive Language-Image Pre-Training (CLIP) は、視覚エンコーダを訓練し、様々なアプリケーションに役立つ画像/テキスト表現を生成するための著名な方法である。近年,Multimodal Large Language Model (MLLM) の視覚バックボーンとしてCLIPが広く採用されている。ビジョン言語基盤モデルとしてのCLIPの成功は、画像レベルでWebcrawlされたノイズの多いテキストアノテーションの整列に依存している。しかし、特にMLLMの領域レベルの理解が要求される場合には、細粒度の視覚表現を必要とするダウンストリームタスクには、そのような基準が不十分になる可能性がある。本稿では,CLIPのローカライゼーション能力をいくつかの進歩で改善する。本稿では,CLOC(Contrastive Localized Language- Image Pre-training)と呼ばれる事前学習手法を提案する。我々は、エンコーダが空間的ヒントを与えられた領域表現に変換し易い画像埋め込みを生成する新しい概念、即時埋め込みを定式化する。大規模な事前学習を支援するために、視覚的に豊かで空間的に局在したキャプション・フレームワークを設計し、大規模に領域文の擬似ラベルを効果的に生成する。数十億の注釈付き画像をスケールアップすることにより、CLOCは画像領域認識および検索タスクのための高品質な地域埋め込みを可能にし、特に参照および接地タスクにおいてMLLMを強化するCLIPの代替となる。

関連論文リスト

Exploring CLIP's Dense Knowledge for Weakly Supervised Semantic Segmentation [19.26516470653798]
画像レベルラベル付き弱スーパービジョンセマンティック(WSSS)は、クラスマップ(CAM)を用いた画素レベルの予測を実現することを目的としている。最近の手法は主にCAM生成のための画像テキストアライメントに重点を置いているが、パッチテキストアライメントにおけるCLIPの可能性はいまだ解明されていない。我々は,WSSS のパッチテキストアライメントパラダイムを通じて,CLIP の密集した知識を探索する ExCEL を提案する。
論文参考訳（メタデータ） (2025-03-26T02:00:49Z)
LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [60.02145113467427]
この作業では、大規模な言語モデルと事前訓練されたCLIPビジュアルエンコーダを統合する、微調整のアプローチを導入している。 LLMの自己回帰的性質の課題に対処するために,キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラッシブ・ラーニング・フレームワークを提案する。提案手法は,様々な下流タスクにおいて,大幅な性能向上を実現する。
論文参考訳（メタデータ） (2024-11-07T18:59:16Z)
CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。 CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文参考訳（メタデータ） (2024-10-12T06:24:33Z)
EAGLE: Towards Efficient Arbitrary Referring Visual Prompts Comprehension for Multimodal Large Language Models [80.00303150568696]
本稿では,既存のアプローチよりもトレーニングの少ない任意の参照視覚的プロンプトの理解を促進するための,MLLM(Multimodal Large Language Models)を提案する。本手法は,視覚的プロンプトを,MLLMに理解可能な特定の空間領域を伝達する空間概念として応用する。我々はまた、MLLMの領域レベルの理解を視覚的プロンプトを参照する特定の形式にさらに引き離すための幾何非依存学習パラダイム(GAL)を提案する。
論文参考訳（メタデータ） (2024-09-25T08:22:00Z)
Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文参考訳（メタデータ） (2024-03-05T13:45:46Z)
UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding [90.74967596080982]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語-画像事前学習(CLIP)を拡張した。 UMG-CLIPと呼ばれる統一多言語学習フレームワークを開発した。パラメータ効率のよいチューニングにより、UMG-CLIPは、現在広く使われているCLIPの亜種を超え、多様な画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-01-12T06:35:09Z)
SyCoCa: Symmetrizing Contrastive Captioners with Attentive Masking for Multimodal Alignment [11.556516260190737]
言語と視覚のマルチモーダルアライメントは、現在の視覚言語モデル研究の基本的なトピックである。本稿では,Contrastive Language-Image Pretraining (CLIP) と Image Caption (IC) を統合するためのContrastive Captioners (CoCa) を提案する。
論文参考訳（メタデータ） (2024-01-04T08:42:36Z)
CLIPSelf: Vision Transformer Distills Itself for Open-Vocabulary Dense Prediction [67.43527289422978]
そこで我々は,CLIPSelfというアプローチを提案し,CLIP ViTの画像レベルの認識能力を局所画像領域に適用する。オープンボキャブラリオブジェクト検出,セマンティックセグメンテーション,パン光学セグメンテーションを,様々なベンチマークで実現した。
論文参考訳（メタデータ） (2023-10-02T17:58:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。