論文の概要: PyramidCLIP: Hierarchical Feature Alignment for Vision-language Model
Pretraining
- arxiv url: http://arxiv.org/abs/2204.14095v1
- Date: Fri, 29 Apr 2022 13:38:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-02 22:03:18.346155
- Title: PyramidCLIP: Hierarchical Feature Alignment for Vision-language Model
Pretraining
- Title(参考訳): PyramidCLIP: 視覚言語モデル事前学習のための階層的特徴アライメント
- Authors: Yuting Gao, Jinfeng Liu, Zihan Xu, Jun Zhang, Ke Li, Chunhua Shen
- Abstract要約: 意味レベルが異なる入力ピラミッドを構築し,視覚的要素と言語的要素を階層構造として整列させる。
ゼロショット画像分類、ゼロショット画像テキスト検索、画像オブジェクト検出を含む3つの下流タスクの実験は、提案したピラミドCLIPの有効性を検証する。
- 参考スコア(独自算出の注目度): 68.84339672878066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale vision-language pre-training has achieved promising results on
downstream tasks. Existing methods highly rely on the assumption that the
image-text pairs crawled from the Internet are in perfect one-to-one
correspondence. However, in real scenarios, this assumption can be difficult to
hold: the text description, obtained by crawling the affiliated metadata of the
image, often suffer from semantic mismatch and mutual compatibility. To address
these issues, here we introduce PyramidCLIP, which constructs an input pyramid
with different semantic levels, and aligns visual elements and linguistic
elements in the form of hierarchy via intra-level semantics alignment and
cross-level relation alignment. Furthermore, we adjust the objective function
by softening the loss of negative samples (unpaired samples) so as to weaken
the strict constraint during the pre-training stage, thus mitigating the risk
of the model being over-confident. Experiments on three downstream tasks,
including zero-shot image classification, zero-shot image-text retrieval and
image object detection, verify the effectiveness of the proposed PyramidCLIP.
In particular, with the same amount of pre-training data of 15 millions
image-text pairs, PyramidCLIP exceeds CLIP by 19.2%/18.5%/19.6% respectively,
with the image encoder being ResNet-50/ViT-B32/ViT-B16 on ImageNet zero-shot
classification top-1 accuracy. When scaling to larger datasets, the results of
PyramidCLIP only trained for 8 epochs using 128M image-text pairs are very
close to that of CLIP trained for 32 epochs using 400M training data.
- Abstract(参考訳): 大規模視覚言語事前学習は下流タスクで有望な成果を上げている。
既存の手法は、インターネットからクロールされた画像テキストペアが完全な1対1対応であるという仮定に大きく依存している。
画像の関連メタデータをクロールすることで得られるテキスト記述は、しばしばセマンティックミスマッチと相互互換性に悩まされる。
これらの問題に対処するために、PraamidCLIPを導入し、異なる意味レベルを持つ入力ピラミッドを構築し、階層の形で視覚要素と言語要素を階層内セマンティクスアライメントと相互関係アライメントによって整列する。
さらに,事前学習段階での厳密な制約を弱めるために,負のサンプル(未調整のサンプル)の損失を和らげることにより,モデルが自信過剰になるリスクを軽減し,客観的な機能を調整する。
ゼロショット画像分類、ゼロショット画像テキスト検索、画像オブジェクト検出を含む3つの下流タスクの実験は、提案したピラミッドCLIPの有効性を検証する。
特に1500万枚の画像テキストペアの事前トレーニングデータと同じ量で、PraamidCLIPはCLIPを19.2%/18.5%/19.6%上回り、画像エンコーダはImageNetゼロショット分類トップ1の精度でResNet-50/ViT-B32/ViT-B16である。
大規模なデータセットにスケールする場合,128万のイメージテキストペアを使用した8つのエポックのみをトレーニングした結果は,400万のトレーニングデータを使用した32エポックをトレーニングしたクリップに非常に近い。
関連論文リスト
- TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - Improving fine-grained understanding in image-text pre-training [37.163228122323865]
SPARse Fine-fine Contrastive Alignment (SPARC) は、画像とテキストのペアからよりきめ細かなマルチモーダル表現を事前学習する簡単な方法である。
粗い情報に依存した画像レベルのタスクに対して、競合するアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-18T10:28:45Z) - VeCLIP: Improving CLIP Training via Visual-enriched Captions [63.547204530720705]
本研究は,ノイズキャプション書き換えのためのスケーラブルパイプラインを提案する。
視覚豊かなキャプション(VeCap)と呼ばれるキャプションへの視覚概念の組み入れを強調した。
本稿では,大規模なWebクローリングデータセットであるVeCLIP上でCLIPをトレーニングするためのこの手法の適用について紹介する。
論文 参考訳(メタデータ) (2023-10-11T17:49:13Z) - Sieve: Multimodal Dataset Pruning Using Image Captioning Models [11.362835828985494]
Vision-Language Models (VLM) は、大規模で多様でノイズの多いWebcrawledデータセットで事前トレーニングされている。
提案手法は,CLIPがノイズラベルを事前学習しているため,偽陽性や陰性などの複数の制約を伴っていると論じる。
そこで我々は,小,多様,整列した画像テキストペア上で事前訓練された画像キャプションモデルによって生成された合成キャプションを用いたプルーニング信号Sieveを提案する。
論文 参考訳(メタデータ) (2023-10-03T14:53:53Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-training via
Word-Region Alignment [104.54362490182335]
DetCLIPv2は、大規模な画像テキストペアを組み込んでオープン語彙オブジェクト検出を実現する、効率的なトレーニングフレームワークである。
DetCLIPv2は、大量の画像テキスト対から端から端まで、粒度の細かい単語領域アライメントを直接学習する。
DetCLIPv2は1300万のイメージテキストペアを事前トレーニングすることで、より優れたオープン語彙検出性能を示す。
論文 参考訳(メタデータ) (2023-04-10T11:08:15Z) - Prefix Conditioning Unifies Language and Label Supervision [84.11127588805138]
学習した表現の一般化性を低減することにより,データセットのバイアスが事前学習に悪影響を及ぼすことを示す。
実験では、この単純な手法により、ゼロショット画像認識精度が向上し、画像レベルの分布シフトに対するロバスト性が向上することを示した。
論文 参考訳(メタデータ) (2022-06-02T16:12:26Z) - CyCLIP: Cyclic Contrastive Language-Image Pretraining [34.588147979731374]
ペア画像テキストデータに対するコントラスト表現学習の最近の進歩は、ゼロショット分類と分布ロバスト性のための最先端性能を達成するCLIPのようなモデルにつながっている。
我々は、標準のコントラスト目的によって学習された画像とテキストの表現が交換不可能であり、不整合な下流予測につながることを実証した。
画像やテキスト空間で幾何学的に一貫した表現を明示的に最適化するコントラスト表現学習フレームワークであるCyCLIPを提案する。
論文 参考訳(メタデータ) (2022-05-28T15:31:17Z) - Data Efficient Language-supervised Zero-shot Recognition with Optimal
Transport Distillation [43.03533959429743]
本稿では,オンライン最適トランスポートを用いて,コントラスト学習のためのラベルとしてソフトな画像テキストマッチングを求めるOTTERを提案する。
事前訓練された画像とテキストエンコーダに基づいて、OTTERで訓練されたモデルは、3M画像テキストペアだけで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-12-17T11:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。