論文の概要: Attentive Mask CLIP
- arxiv url: http://arxiv.org/abs/2212.08653v1
- Date: Fri, 16 Dec 2022 18:59:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 16:16:34.953713
- Title: Attentive Mask CLIP
- Title(参考訳): 注意マスククリップ
- Authors: Yifan Yang, Weiquan Huang, Yixuan Wei, Houwen Peng, Xinyang Jiang,
Huiqiang Jiang, Fangyun Wei, Yin Wang, Han Hu, Lili Qiu, Yuqing Yang
- Abstract要約: テキスト記述に高い意味的相関を持つトークンを保持するCLIPトレーニングのための注意的トークン除去手法を提案する。
提案手法は、ImageNet-1Kゼロショット分類で43.9%の精度、62.7/42.1ドルの精度、38.0/23.2ドルのI2T/T2I検索精度を実現している。
- 参考スコア(独自算出の注目度): 48.206857783966996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image token removal is an efficient augmentation strategy for reducing the
cost of computing image features. However, this efficient augmentation strategy
has been found to adversely affect the accuracy of CLIP-based training. We
hypothesize that removing a large portion of image tokens may improperly
discard the semantic content associated with a given text description, thus
constituting an incorrect pairing target in CLIP training. To address this
issue, we propose an attentive token removal approach for CLIP training, which
retains tokens with a high semantic correlation to the text description. The
correlation scores are computed in an online fashion using the EMA version of
the visual encoder. Our experiments show that the proposed attentive masking
approach performs better than the previous method of random token removal for
CLIP training. The approach also makes it efficient to apply multiple
augmentation views to the image, as well as introducing instance contrastive
learning tasks between these views into the CLIP framework. Compared to other
CLIP improvements that combine different pre-training targets such as SLIP and
MaskCLIP, our method is not only more effective, but also much more efficient.
Specifically, using ViT-B and YFCC-15M dataset, our approach achieves $43.9\%$
top-1 accuracy on ImageNet-1K zero-shot classification, as well as $62.7/42.1$
and $38.0/23.2$ I2T/T2I retrieval accuracy on Flickr30K and MS COCO, which are
$+1.1\%$, $+5.5/+0.9$, and $+4.4/+1.3$ higher than the SLIP method, while being
$2.30\times$ faster. An efficient version of our approach running $1.16\times$
faster than the plain CLIP model achieves significant gains of $+5.3\%$,
$+11.3/+8.0$, and $+9.5/+4.9$ on these benchmarks.
- Abstract(参考訳): 画像トークン除去は、画像特徴の計算コストを削減するための効率的な拡張戦略である。
しかし、この効率的な増強戦略は、CLIPベースのトレーニングの精度に悪影響を及ぼすことが判明した。
画像トークンの大部分を削除することは、与えられたテキスト記述に関連する意味内容を不適切に破棄し、CLIPトレーニングにおいて誤ったペアリングターゲットを構成することを仮定する。
そこで本研究では,テキスト記述に高い意味的相関を持つトークンを保持するクリップ学習のための注意トークン除去手法を提案する。
相関スコアは、ビジュアルエンコーダのEMAバージョンを用いてオンライン形式で計算される。
提案手法は,CLIPトレーニングにおける従来のランダムトークン除去法よりも優れた性能を示した。
このアプローチはまた、複数の拡張ビューをイメージに適用すると同時に、これらのビュー間での対照的な学習タスクをCLIPフレームワークに導入する。
SLIPやMaskCLIPなど,さまざまな事前学習ターゲットを組み合わせた他のCLIP改善と比較して,本手法はより効率的であるだけでなく,はるかに効率的である。
具体的には、ViT-BとYFCC-15Mデータセットを使用して、ImageNet-1Kゼロショット分類で43.9\%の精度で、Flickr30KとMS COCOでは、$+1.1\%、$+5.5/+0.9$、$+4.4/+1.3$の精度で、イメージNet-1Kゼロショット分類では62.7/42.1ドル、$38.0/23.2ドルの精度で取得しています。
通常のCLIPモデルよりも1.16\times$を高速に実行するアプローチの効率的なバージョンは、$+5.3\%$、$+11.3/+8.0$、$+9.5/+4.9$の大幅なゲインを達成する。
関連論文リスト
- Learning Mask-aware CLIP Representations for Zero-Shot Segmentation [120.97144647340588]
Mask-awareProposals CLIP (IP-CLIP) は任意の数の画像とマスクの提案を同時に処理するために提案されている。
マスク認識損失と自己蒸留損失はIP-CLIPを微調整するように設計されており、CLIPが異なるマスク提案に応答することを保証している。
我々は、人気のあるゼロショットベンチマークで広範な実験を行う。
論文 参考訳(メタデータ) (2023-09-30T03:27:31Z) - ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens [75.09406436851445]
本稿では,言語出力の監督による影響の少ないトークンを除去するために,視覚トークンのプルーニングとマージ手法ELIPを提案する。
実験により、12層のViT層に30$%のビジョントークンが削除されたことにより、ELIPは著しく同等のパフォーマンスを維持した。
論文 参考訳(メタデータ) (2023-09-28T05:31:07Z) - CLIPA-v2: Scaling CLIP Training with 81.1% Zero-shot ImageNet Accuracy
within a \$10,000 Budget; An Extra \$4,000 Unlocks 81.8% Accuracy [20.495259430916814]
CLIPトレーニングの逆スケーリング法であるCLIPA-v2を提案する。
実験を13B画像テキストペアでH/14モデルに拡張する。
我々のモデルは、印象的なゼロショット画像Netの精度81.1%を達成する。
論文 参考訳(メタデータ) (2023-06-27T17:51:06Z) - An Inverse Scaling Law for CLIP Training [24.961315762769893]
ここでは,CLIPトレーニングの逆スケーリング法則が存在することを示す。
限られた計算資源でもCLIPをトレーニングできるのです。
論文 参考訳(メタデータ) (2023-05-11T17:56:09Z) - Masked Autoencoding Does Not Help Natural Language Supervision at Scale [16.277390808400828]
より大量のデータでトレーニングした場合、同様のアプローチが有効かどうかを検討する。
マスク付きオートエンコーダ、MAE、コントラスト言語イメージ事前トレーニングの2つの方法を組み合わせることで、CLIPは11.3Mイメージテキストペアのコーパスでトレーニングした場合、CLIPよりもメリットがあることがわかった。
論文 参考訳(メタデータ) (2023-01-19T01:05:18Z) - ZegCLIP: Towards Adapting CLIP for Zero-shot Semantic Segmentation [35.60888272729273]
近年、CLIPは2段階のスキームを用いて画素レベルのゼロショット学習タスクに適用されている。
このような方式は有効であるが、2つの画像エンコーダが必要であり、1つは提案生成用、もう1つはCLIP用であり、複雑なパイプラインと高い計算コストをもたらす。
本稿では,CLIPのゼロショット予測能力を画像からピクセルレベルまで直接拡張する,シンプルかつ効率的なワンステージソリューションを提案する。
論文 参考訳(メタデータ) (2022-12-07T12:05:00Z) - Improving Zero-shot Generalization and Robustness of Multi-modal Models [70.14692320804178]
CLIPやLiTのようなマルチモーダルな画像テキストモデルは、画像分類ベンチマークで顕著な性能を示している。
本研究は,この性能差の原因を考察し,テキストプロンプトの曖昧さによる障害事例の多くが原因であることを示す。
本稿では,WordNet階層を用いて,不確実な画像の精度を向上させるための簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-12-04T07:26:24Z) - Scaling Language-Image Pre-training via Masking [63.36988191660858]
高速言語画像事前学習(FLIP)は、CLIPを訓練するためのシンプルで効率的な方法である。
マスキングによって、同じウォールタイム時間で、より多くの画像テキストペアから学ぶことができます。
FLIPは、同じデータでトレーニングされたCLIPよりも圧倒的に優れています。
論文 参考訳(メタデータ) (2022-12-01T18:59:57Z) - Dense Contrastive Learning for Self-Supervised Visual Pre-Training [102.15325936477362]
入力画像の2つのビュー間の画素レベルでの差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分)を最適化することにより自己教師学習を実現する。
ベースライン法であるMoCo-v2と比較すると,計算オーバーヘッドは1%遅かった。
論文 参考訳(メタデータ) (2020-11-18T08:42:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。