論文の概要: FG-CLIP: Fine-Grained Visual and Textual Alignment
- arxiv url: http://arxiv.org/abs/2505.05071v3
- Date: Wed, 21 May 2025 06:18:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.519157
- Title: FG-CLIP: Fine-Grained Visual and Textual Alignment
- Title(参考訳): FG-CLIP:細粒度視覚とテキストアライメント
- Authors: Chunyu Xie, Bin Wang, Fanjing Kong, Jincheng Li, Dawei Liang, Gengshen Zhang, Dawei Leng, Yuhui Yin,
- Abstract要約: 本稿では,3つの重要なイノベーションを通じて微細な理解を深めるファイングラインドCLIPを提案する。
我々は、大容量マルチモーダルモデルを用いて、世界レベルのセマンティックディテールをキャプチャするために、160億の長いキャプションイメージペアを生成する。
我々は、高品質な領域固有のアノテーションと、きめ細かい負のサンプルを統合することで、FinHARDと呼ばれる包括的データセットを構築した。
- 参考スコア(独自算出の注目度): 3.830067625507938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Language-Image Pre-training (CLIP) excels in multimodal tasks such as image-text retrieval and zero-shot classification but struggles with fine-grained understanding due to its focus on coarse-grained short captions. To address this, we propose Fine-Grained CLIP (FG-CLIP), which enhances fine-grained understanding through three key innovations. First, we leverage large multimodal models to generate 1.6 billion long caption-image pairs for capturing global-level semantic details. Second, a high-quality dataset is constructed with 12 million images and 40 million region-specific bounding boxes aligned with detailed captions to ensure precise, context-rich representations. Third, 10 million hard fine-grained negative samples are incorporated to improve the model's ability to distinguish subtle semantic differences. We construct a comprehensive dataset, termed FineHARD, by integrating high-quality region-specific annotations with hard fine-grained negative samples. Corresponding training methods are meticulously designed for these data. Extensive experiments demonstrate that FG-CLIP outperforms the original CLIP and other state-of-the-art methods across various downstream tasks, including fine-grained understanding, open-vocabulary object detection, image-text retrieval, and general multimodal benchmarks. These results highlight FG-CLIP's effectiveness in capturing fine-grained image details and improving overall model performance. The data, code, and models are available at https://github.com/360CVGroup/FG-CLIP.
- Abstract(参考訳): 比較言語-画像事前学習(CLIP)は、画像テキスト検索やゼロショット分類などのマルチモーダルなタスクに優れるが、粗粒の短いキャプションに重点を置いているため、きめ細かな理解に苦慮している。
そこで本研究では,FG-CLIP(Final-Grained CLIP)を提案する。
まず,大容量マルチモーダルモデルを用いて,世界レベルのセマンティックディテールをキャプチャするために,160億の長文キャプションイメージペアを生成する。
第二に、高品質なデータセットは1200万の画像と4000万の領域固有のバウンディングボックスで構築され、詳細なキャプションが整い、正確な文脈に富んだ表現が保証される。
第三に、微妙なセマンティックな違いを区別するモデルの能力を改善するために、1000万の硬いきめ細かな負のサンプルが組み込まれている。
我々は、高品質な領域固有のアノテーションと、きめ細かい負のサンプルを統合することで、FinHARDと呼ばれる包括的データセットを構築した。
対応するトレーニング方法は、これらのデータに対して慎重に設計されている。
大規模な実験により、FG-CLIPは元のCLIPや他の最先端の手法よりも、細粒度理解、オープン語彙オブジェクト検出、画像テキスト検索、一般的なマルチモーダルベンチマークなど、様々な下流タスクで優れていることが示された。
これらの結果は,FG-CLIPによる微細な画像のキャプチャとモデル全体の性能向上に有効であることを示す。
データ、コード、モデルはhttps://github.com/360CVGroup/FG-CLIPで入手できる。
関連論文リスト
- TULIP: Towards Unified Language-Image Pretraining [60.99500935831526]
既存のCLIPライクなモデルの代替として,オープンソースでドロップイン可能なTを導入する。
提案手法は, 生成データの拡張, 画像画像の強化, テキストコントラスト学習, 画像/テキスト再構成正規化を利用して, きめ細かい視覚的特徴を学習する。
当社のアプローチでは、ベンチマーク全体で既存の最先端(SOTA)モデルを上回っています。
論文 参考訳(メタデータ) (2025-03-19T17:58:57Z) - DiffCLIP: Few-shot Language-driven Multimodal Classifier [19.145645804307566]
DiffCLIPはContrastive Language-Image Pretrainingを拡張する新しいフレームワークである。
高次元マルチモーダルリモートセンシング画像の正確な分類のための包括的言語駆動意味情報を提供する。
DiffCLIPはCLIPと比較して3つのリモートセンシングデータセットで10.65%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-12-10T02:21:39Z) - FLAIR: VLM with Fine-grained Language-informed Image Representations [49.2684130383925]
FLAIRは、局所的な画像埋め込みを学ぶために、長く詳細な画像記述を利用するアプローチである。
実験では,30M画像テキスト対を用いたFLAIRによる微細な視覚情報収集の有効性を実証した。
論文 参考訳(メタデータ) (2024-12-04T18:56:04Z) - Advancing Myopia To Holism: Fully Contrastive Language-Image Pre-training [30.071860810401933]
本稿では,対照的な言語イメージ事前学習(CLIP)を1つの新しい包括的パラダイムに発展させる。
画像からテキストへのキャプションを用いて、複数の視点、粒度、階層から各画像のマルチテキストを生成する。
私たちの総合的なCLIPは、画像テキスト検索、オープン語彙分類、濃密な視覚タスクなど、既存のCLIPよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-11-30T11:27:58Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - Self-Supervised Image Captioning with CLIP [0.0]
本稿では,自己監督型画像キャプション手法を提案する。
小さなラベル付きデータセットから初期信号を学んだ後、ラベルなしデータに基づいて自己教師付き学習に移行する。
ラベル付きCOCOデータセットの2%未満を活用するにもかかわらず、我々の手法は完全なデータセットでトレーニングされた最先端モデルに匹敵するパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-06-26T23:29:16Z) - DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-training via
Word-Region Alignment [104.54362490182335]
DetCLIPv2は、大規模な画像テキストペアを組み込んでオープン語彙オブジェクト検出を実現する、効率的なトレーニングフレームワークである。
DetCLIPv2は、大量の画像テキスト対から端から端まで、粒度の細かい単語領域アライメントを直接学習する。
DetCLIPv2は1300万のイメージテキストペアを事前トレーニングすることで、より優れたオープン語彙検出性能を示す。
論文 参考訳(メタデータ) (2023-04-10T11:08:15Z) - PyramidCLIP: Hierarchical Feature Alignment for Vision-language Model
Pretraining [68.84339672878066]
意味レベルが異なる入力ピラミッドを構築し,視覚的要素と言語的要素を階層構造として整列させる。
ゼロショット画像分類、ゼロショット画像テキスト検索、画像オブジェクト検出を含む3つの下流タスクの実験は、提案したピラミドCLIPの有効性を検証する。
論文 参考訳(メタデータ) (2022-04-29T13:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。