論文の概要: Attentive Mask CLIP
- arxiv url: http://arxiv.org/abs/2212.08653v1
- Date: Fri, 16 Dec 2022 18:59:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 16:16:34.953713
- Title: Attentive Mask CLIP
- Title(参考訳): 注意マスククリップ
- Authors: Yifan Yang, Weiquan Huang, Yixuan Wei, Houwen Peng, Xinyang Jiang,
Huiqiang Jiang, Fangyun Wei, Yin Wang, Han Hu, Lili Qiu, Yuqing Yang
- Abstract要約: テキスト記述に高い意味的相関を持つトークンを保持するCLIPトレーニングのための注意的トークン除去手法を提案する。
提案手法は、ImageNet-1Kゼロショット分類で43.9%の精度、62.7/42.1ドルの精度、38.0/23.2ドルのI2T/T2I検索精度を実現している。
- 参考スコア(独自算出の注目度): 48.206857783966996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image token removal is an efficient augmentation strategy for reducing the
cost of computing image features. However, this efficient augmentation strategy
has been found to adversely affect the accuracy of CLIP-based training. We
hypothesize that removing a large portion of image tokens may improperly
discard the semantic content associated with a given text description, thus
constituting an incorrect pairing target in CLIP training. To address this
issue, we propose an attentive token removal approach for CLIP training, which
retains tokens with a high semantic correlation to the text description. The
correlation scores are computed in an online fashion using the EMA version of
the visual encoder. Our experiments show that the proposed attentive masking
approach performs better than the previous method of random token removal for
CLIP training. The approach also makes it efficient to apply multiple
augmentation views to the image, as well as introducing instance contrastive
learning tasks between these views into the CLIP framework. Compared to other
CLIP improvements that combine different pre-training targets such as SLIP and
MaskCLIP, our method is not only more effective, but also much more efficient.
Specifically, using ViT-B and YFCC-15M dataset, our approach achieves $43.9\%$
top-1 accuracy on ImageNet-1K zero-shot classification, as well as $62.7/42.1$
and $38.0/23.2$ I2T/T2I retrieval accuracy on Flickr30K and MS COCO, which are
$+1.1\%$, $+5.5/+0.9$, and $+4.4/+1.3$ higher than the SLIP method, while being
$2.30\times$ faster. An efficient version of our approach running $1.16\times$
faster than the plain CLIP model achieves significant gains of $+5.3\%$,
$+11.3/+8.0$, and $+9.5/+4.9$ on these benchmarks.
- Abstract(参考訳): 画像トークン除去は、画像特徴の計算コストを削減するための効率的な拡張戦略である。
しかし、この効率的な増強戦略は、CLIPベースのトレーニングの精度に悪影響を及ぼすことが判明した。
画像トークンの大部分を削除することは、与えられたテキスト記述に関連する意味内容を不適切に破棄し、CLIPトレーニングにおいて誤ったペアリングターゲットを構成することを仮定する。
そこで本研究では,テキスト記述に高い意味的相関を持つトークンを保持するクリップ学習のための注意トークン除去手法を提案する。
相関スコアは、ビジュアルエンコーダのEMAバージョンを用いてオンライン形式で計算される。
提案手法は,CLIPトレーニングにおける従来のランダムトークン除去法よりも優れた性能を示した。
このアプローチはまた、複数の拡張ビューをイメージに適用すると同時に、これらのビュー間での対照的な学習タスクをCLIPフレームワークに導入する。
SLIPやMaskCLIPなど,さまざまな事前学習ターゲットを組み合わせた他のCLIP改善と比較して,本手法はより効率的であるだけでなく,はるかに効率的である。
具体的には、ViT-BとYFCC-15Mデータセットを使用して、ImageNet-1Kゼロショット分類で43.9\%の精度で、Flickr30KとMS COCOでは、$+1.1\%、$+5.5/+0.9$、$+4.4/+1.3$の精度で、イメージNet-1Kゼロショット分類では62.7/42.1ドル、$38.0/23.2ドルの精度で取得しています。
通常のCLIPモデルよりも1.16\times$を高速に実行するアプローチの効率的なバージョンは、$+5.3\%$、$+11.3/+8.0$、$+9.5/+4.9$の大幅なゲインを達成する。
関連論文リスト
- TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - Is Less More? Exploring Token Condensation as Training-free Adaptation for CLIP [43.09801987385207]
比較言語画像事前訓練(CLIP)は画像分類において顕著な一般化能力を示した。
CLIPは、ゼロショット推論中にダウンストリームデータセットのパフォーマンス低下に遭遇することがある。
このようなケースでCLIPのパフォーマンス低下に効率的に対処できる、トレーニング不要のアプローチはありますか?
論文 参考訳(メタデータ) (2024-10-16T07:13:35Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - Learning Mask-aware CLIP Representations for Zero-Shot Segmentation [120.97144647340588]
Mask-awareProposals CLIP (IP-CLIP) は任意の数の画像とマスクの提案を同時に処理するために提案されている。
マスク認識損失と自己蒸留損失はIP-CLIPを微調整するように設計されており、CLIPが異なるマスク提案に応答することを保証している。
我々は、人気のあるゼロショットベンチマークで広範な実験を行う。
論文 参考訳(メタデータ) (2023-09-30T03:27:31Z) - ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens [75.09406436851445]
本稿では,言語出力の監督による影響の少ないトークンを除去するために,視覚トークンのプルーニングとマージ手法ELIPを提案する。
実験により、12層のViT層に30$%のビジョントークンが削除されたことにより、ELIPは著しく同等のパフォーマンスを維持した。
論文 参考訳(メタデータ) (2023-09-28T05:31:07Z) - CLIP-KD: An Empirical Study of CLIP Model Distillation [24.52910358842176]
本稿では,大規模教師CLIPモデルによって指導される小型CLIPモデルを蒸留することを目的とする。
Mean Squared Error損失による単純な機能模倣が驚くほどうまく機能することを示す。
教師と生徒のエンコーダ間の対話的コントラスト学習は、性能向上にも有効である。
論文 参考訳(メタデータ) (2023-07-24T12:24:07Z) - Masked Autoencoding Does Not Help Natural Language Supervision at Scale [16.277390808400828]
より大量のデータでトレーニングした場合、同様のアプローチが有効かどうかを検討する。
マスク付きオートエンコーダ、MAE、コントラスト言語イメージ事前トレーニングの2つの方法を組み合わせることで、CLIPは11.3Mイメージテキストペアのコーパスでトレーニングした場合、CLIPよりもメリットがあることがわかった。
論文 参考訳(メタデータ) (2023-01-19T01:05:18Z) - ZegCLIP: Towards Adapting CLIP for Zero-shot Semantic Segmentation [35.60888272729273]
近年、CLIPは2段階のスキームを用いて画素レベルのゼロショット学習タスクに適用されている。
このような方式は有効であるが、2つの画像エンコーダが必要であり、1つは提案生成用、もう1つはCLIP用であり、複雑なパイプラインと高い計算コストをもたらす。
本稿では,CLIPのゼロショット予測能力を画像からピクセルレベルまで直接拡張する,シンプルかつ効率的なワンステージソリューションを提案する。
論文 参考訳(メタデータ) (2022-12-07T12:05:00Z) - Dense Contrastive Learning for Self-Supervised Visual Pre-Training [102.15325936477362]
入力画像の2つのビュー間の画素レベルでの差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分)を最適化することにより自己教師学習を実現する。
ベースライン法であるMoCo-v2と比較すると,計算オーバーヘッドは1%遅かった。
論文 参考訳(メタデータ) (2020-11-18T08:42:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。