論文の概要: Improving fine-grained understanding in image-text pre-training
- arxiv url: http://arxiv.org/abs/2401.09865v1
- Date: Thu, 18 Jan 2024 10:28:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 17:11:04.510567
- Title: Improving fine-grained understanding in image-text pre-training
- Title(参考訳): 画像テキスト事前学習におけるきめ細かい理解の改善
- Authors: Ioana Bica, Anastasija Ili\'c, Matthias Bauer, Goker Erdogan, Matko
Bo\v{s}njak, Christos Kaplanis, Alexey A. Gritsenko, Matthias Minderer,
Charles Blundell, Razvan Pascanu, Jovana Mitrovi\'c
- Abstract要約: SPARse Fine-fine Contrastive Alignment (SPARC) は、画像とテキストのペアからよりきめ細かなマルチモーダル表現を事前学習する簡単な方法である。
粗い情報に依存した画像レベルのタスクに対して、競合するアプローチよりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 37.163228122323865
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce SPARse Fine-grained Contrastive Alignment (SPARC), a simple
method for pretraining more fine-grained multimodal representations from
image-text pairs. Given that multiple image patches often correspond to single
words, we propose to learn a grouping of image patches for every token in the
caption. To achieve this, we use a sparse similarity metric between image
patches and language tokens and compute for each token a language-grouped
vision embedding as the weighted average of patches. The token and
language-grouped vision embeddings are then contrasted through a fine-grained
sequence-wise loss that only depends on individual samples and does not require
other batch samples as negatives. This enables more detailed information to be
learned in a computationally inexpensive manner. SPARC combines this
fine-grained loss with a contrastive loss between global image and text
embeddings to learn representations that simultaneously encode global and local
information. We thoroughly evaluate our proposed method and show improved
performance over competing approaches both on image-level tasks relying on
coarse-grained information, e.g. classification, as well as region-level tasks
relying on fine-grained information, e.g. retrieval, object detection, and
segmentation. Moreover, SPARC improves model faithfulness and captioning in
foundational vision-language models.
- Abstract(参考訳): SPARse Fine-fine Contrastive Alignment (SPARC) は、画像とテキストのペアからよりきめ細かいマルチモーダル表現を事前学習するための単純な方法である。
複数の画像パッチが単一の単語に対応することが多いことを考慮し、キャプション内のトークン毎に画像パッチをグループ化することを提案する。
これを実現するために、画像パッチと言語トークン間の疎類似度測定を用いて、各トークンに対して、重み付けされたパッチの平均として言語群視覚埋め込みを演算する。
トークンと言語グループによる視覚埋め込みは、個々のサンプルにのみ依存し、他のバッチサンプルを負として必要としない、きめ細かなシーケンスワイズ損失によって対比される。
これにより、より詳細な情報を計算的に安価に学習することができる。
SPARCは、この微細な損失と、グローバルイメージとテキスト埋め込みの間の対照的な損失を組み合わせて、グローバルおよびローカル情報を同時にエンコードする表現を学ぶ。
提案手法を徹底的に評価し,粗粒度情報(分類など)に依存する画像レベルのタスクと,検索,オブジェクト検出,セグメンテーションなどの細粒度情報に依存する領域レベルのタスクの両方において,競合する手法よりも優れた性能を示す。
さらに、SPARCは基礎的な視覚言語モデルにおけるモデル忠実度とキャプションを改善している。
関連論文リスト
- Patch-Wise Self-Supervised Visual Representation Learning: A Fine-Grained Approach [4.9204263448542465]
本研究は、パッチレベルの識別を自己教師付き視覚表現学習に組み込むことにより、革新的できめ細かな次元を導入する。
それぞれのパッチは個別に拡張され、同じビュー内の他のパッチとは独立している。
我々は、拡張ビュー全体にわたって対応するパッチを見つけるための、単純で効果的なパッチマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-28T09:35:30Z) - Text Augmented Spatial-aware Zero-shot Referring Image Segmentation [60.84423786769453]
テキスト拡張空間認識(TAS)ゼロショット参照画像セグメンテーションフレームワークを提案する。
TASには、例レベルのマスク抽出のためのマスク提案ネットワーク、画像テキスト相関をマイニングするためのテキスト拡張ビジュアルテキストマッチングスコア、マスク後処理のための空間が含まれている。
提案手法は,最先端のゼロショット参照画像セグメンテーション法より明らかに優れている。
論文 参考訳(メタデータ) (2023-10-27T10:52:50Z) - ASPIRE: Language-Guided Data Augmentation for Improving Robustness Against Spurious Correlations [43.323791505213634]
ASPIRE (Language-guided Data Augmentation for SPurious correlation Removal) は、スプリアスな特徴のない画像でトレーニングデータセットを補完するソリューションである。
トレーニングセットにグループラベルや既存の非スパースイメージを必要とせずに、非スパース画像を生成することができる。
先行手法の最悪のグループ分類精度を1%から38%向上させる。
論文 参考訳(メタデータ) (2023-08-19T20:18:15Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - Leveraging per Image-Token Consistency for Vision-Language Pre-training [52.825150269820696]
クロスモーダルマスク言語モデリング(CMLM)は視覚言語事前学習には不十分である。
視覚言語事前学習のためのEPIC(Leveraging Per Image-Token Consistency)を提案する。
提案手法は, 事前学習法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2022-11-20T12:10:53Z) - Curriculum Learning for Data-Efficient Vision-Language Alignment [29.95935291982015]
コントラスト学習を用いて画像とテキストのエンコーダをスクラッチから調整するには、大量のペア画像テキストデータが必要である。
我々は、より少ないペアデータを用いて、個別に事前訓練された言語と視覚表現モデルを調整することで、このニーズを緩和する。
TOnICSは、トレーニングデータの1%未満を使用しながら、下流のゼロショット画像検索においてCLIPを上回っている。
論文 参考訳(メタデータ) (2022-07-29T07:45:56Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文 参考訳(メタデータ) (2020-12-04T17:26:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。