論文の概要: Parrot Captions Teach CLIP to Spot Text
- arxiv url: http://arxiv.org/abs/2312.14232v3
- Date: Thu, 1 Feb 2024 13:06:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 18:37:28.921983
- Title: Parrot Captions Teach CLIP to Spot Text
- Title(参考訳): テキストにCLIPを教えるParrot Caption
- Authors: Yiqi Lin, Conghui He, Alex Jinpeng Wang, Bin Wang, Weijia Li, Mike
Zheng Shou
- Abstract要約: CLIPは多くのビジョン言語アプリケーションの基礎モデルであるにもかかわらず、CLIPは厳しいテキストスポッティングバイアスに悩まされている。
我々は、最も人気のある画像テキストデータセットLAION-2Bにおいて、キャプションが画像に埋め込まれたテキストを密にパロット(スペル)することを発見した。
本研究は,オウムキャプションを用いた学習がこのようなバイアスを生じやすいが,CLIPモデルにおける視覚言語表現学習に悪影響を及ぼすことを示す。
- 参考スコア(独自算出の注目度): 30.043526358394267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite CLIP being the foundation model in numerous vision-language
applications, the CLIP suffers from a severe text spotting bias. Such bias
causes CLIP models to `Parrot' the visual text embedded within images while
disregarding the authentic visual semantics. We uncover that in the most
popular image-text dataset LAION-2B, the captions also densely parrot (spell)
the text embedded in images. Our analysis shows that around 50% of images are
embedded with visual text content, and around 30% of captions words are in
these embedded visual content. Based on such observation, we thoroughly inspect
the different released versions of CLIP models and verify that the visual text
is the dominant factor in measuring the LAION-style image-text similarity for
these models. To examine whether these parrot captions shape the text spotting
bias, we train a series of CLIP models with LAION subsets curated by different
parrot-caption-oriented criteria. We show that training with parrot captions
easily shapes such bias but harms the expected visual-language representation
learning in CLIP models. This suggests that it is urgent to revisit either the
design of CLIP-like models or the existing image-text dataset curation pipeline
built on CLIP score filtering.
- Abstract(参考訳): CLIPは多くのビジョン言語アプリケーションの基礎モデルであるにもかかわらず、CLIPは厳しいテキストスポッティングバイアスに悩まされている。
このようなバイアスは、CLIPモデルにイメージ内に埋め込まれたビジュアルテキストを‘Parrot’させ、真のビジュアルセマンティクスを無視します。
我々は、最も人気のある画像テキストデータセットLAION-2Bで、キャプションが画像に埋め込まれたテキストを密にパロット(スペル)することを発見した。
分析の結果,画像の約50%がビジュアルテキストコンテンツに埋め込まれており,約30%の字幕語が埋め込みビジュアルコンテンツに含まれていることがわかった。
このような観察に基づいて、CLIPモデルの異なるバージョンを徹底的に検証し、これらのモデルに対するLAIONスタイルの画像テキスト類似度を測定する上で、視覚テキストが重要な要素であることを検証した。
これらのキャプションがテキストスポッティングバイアスを形成するかどうかを調べるため、異なるparrot-caption指向の基準でキュレートされたlaionサブセットを持つ一連のクリップモデルをトレーニングする。
パロットキャプションによる訓練は、このようなバイアスを生じやすいが、クリップモデルで期待される視覚言語表現学習を損なう。
これは、CLIPライクなモデルの設計か、CLIPスコアフィルタリング上に構築された既存のイメージテキストデータセットキュレーションパイプラインを再検討することが緊急であることを示している。
関連論文リスト
- TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - Individuation in Neural Models with and without Visual Grounding [19.007546108571116]
言語とビジョンのモデルであるCLIPと2つのテキストのみのモデルの違いを示す。
CLIPの埋め込みは、テキストのみのデータで訓練されたモデルよりも、識別の定量的な違いを捉えていることを実証する。
論文 参考訳(メタデータ) (2024-09-27T16:04:06Z) - Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - Interpreting CLIP's Image Representation via Text-Based Decomposition [73.54377859089801]
CLIP画像エンコーダは,個々のモデルコンポーネントが最終表現にどう影響するかを解析することによって検討する。
画像表現は、個々の画像パッチ、モデル層、アテンションヘッドにまたがる和として分解する。
この理解を利用して、CLIPからスプリケートな機能を取り除き、強力なゼロショットイメージセグメンタを作成します。
論文 参考訳(メタデータ) (2023-10-09T17:59:04Z) - ComCLIP: Training-Free Compositional Image and Text Matching [19.373706257771673]
コントラスト言語-画像事前訓練は画像とテキストのマッチングに優れたゼロショット性能を示した。
我々は新しいtextbftextittraining-free compositional CLIP model (ComCLIP) を提案する。
ComCLIPは、入力された画像を被写体、オブジェクト、アクションのサブイメージに切り離し、CLIPのビジョンエンコーダとテキストエンコーダを構成して、合成テキスト埋め込みとサブイメージ埋め込みに対する進化的なマッチングを実行する。
論文 参考訳(メタデータ) (2022-11-25T01:37:48Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。