論文の概要: Exploring Visual Interpretability for Contrastive Language-Image
Pre-training
- arxiv url: http://arxiv.org/abs/2209.07046v1
- Date: Thu, 15 Sep 2022 05:01:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 12:51:01.175457
- Title: Exploring Visual Interpretability for Contrastive Language-Image
Pre-training
- Title(参考訳): コントラスト言語画像事前学習のための視覚的解釈可能性の検討
- Authors: Yi Li, Hualiang Wang, Yiqun Duan, Hang Xu, Xiaomeng Li
- Abstract要約: コントラスト言語-画像事前学習は、自然言語の監視を通じて豊かな表現を学習する。
CLIPの視覚的解釈性はまだ研究されていない。
上述の手法をICLIP(Interpretable Contrastive Language- Image Pre-training)として統合する。
- 参考スコア(独自算出の注目度): 23.569964756096986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive Language-Image pre-training (CLIP) learns rich representations
via readily available supervisions of natural language. It could improve
general performance on downstream vision tasks, including but not limited to
zero-shot, long tail, segmentation, retrieval, caption and video. However, to
the best of our knowledge, the visual interpretability of CLIP has not been
studied yet. To provide visual explanations of its predictions, we propose the
Image-Text Similarity Map (ITSM). Based on it, we surprisingly find that CLIP
prefers the background regions than the foregrounds, and presenting erroneous
visualization against human understanding. Experimentally, we find the devil is
in the pooling part, where inappropriate pooling methods lead to a phenomenon
called semantic shift. To correct and boost the visualization results, we
propose the Masked Max Pooling, with attention map from the self-supervised
image encoder. Meanwhile, interpretability task and recognition task require
different representations. To address the problem, we propose the dual
projections to cater this requirement. We integrate above methods as
Interpretable Contrastive Language-Image pre-training (ICLIP). And experiments
suggest ICLIP greatly improves the interpretability. For example, the
nontrivial improvements are $32.85\%$ and $49.10\%$, respectively, on VOC 2012
dataset.
- Abstract(参考訳): Contrastive Language-Image Pre-Training (CLIP)は、自然言語の監視を通じてリッチな表現を学ぶ。
ゼロショット、ロングテール、セグメンテーション、検索、キャプション、ビデオなどを含む下流ビジョンタスクの一般的なパフォーマンスを改善することができる。
しかし、我々の知る限りでは、CLIPの視覚的解釈性はまだ研究されていない。
本稿では,その予測を視覚的に説明するために,画像テキスト類似性マップ(ITSM)を提案する。
この結果から,CLIPは前景よりも背景領域を好んでおり,人間の理解に対する誤った視覚化を呈していることがわかった。
実験的に、デビルはプールの部分に存在し、不適切なプールの方法が意味的シフトと呼ばれる現象に繋がる。
可視化結果の修正と向上を目的として,自己教師付き画像エンコーダの注意マップを用いたMasked Max Poolingを提案する。
一方、解釈可能性タスクと認識タスクは異なる表現を必要とする。
この問題に対処するために,我々はこの要件を満たすために双対射影を提案する。
以上の手法をICLIP(Interpretable Contrastive Language- Image Pre-training)として統合する。
ICLIPは解釈可能性を大幅に改善する。
例えば、VOC 2012データセットでは、非自明な改善は、それぞれ32.85\%$と49.10\%$である。
関連論文リスト
- TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - FiGCLIP: Fine-Grained CLIP Adaptation via Densely Annotated Videos [19.08882495584709]
セマンティックな特性を損なうことなく,CLIPの細粒度・統語能力を高めることが可能であることを示す。
私たちは、高品質で包括的で比較的小さなデータセットにCLIPを効率的に適用します。
我々は、細部指向のセマンティック理解を保った強力な視覚表現であるファイングラインドCLIP(FiGCLIP)を学習する。
論文 参考訳(メタデータ) (2024-01-15T13:27:34Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image
Pretraining [138.86293836634323]
MaskCLIPは、新たに提案されたマスク付き自己蒸留をコントラスト言語イメージ事前学習に組み込む。
MaskCLIPは、言語エンコーダの誘導により、線形探索、微調整、ゼロショット性能において優れた結果が得られる。
論文 参考訳(メタデータ) (2022-08-25T17:59:58Z) - Is a Caption Worth a Thousand Images? A Controlled Study for
Representation Learning [88.5382122413913]
本研究では,従来の画像のみの手法よりも伝達可能な表現を持つ視覚モデルが得られるかを検討した。
画像のみの手法は、より多くの画像データでトレーニングされた場合でも、CLIPの転送性能と一致しないことがわかった。
この結果から,CLIPが既存の事前学習データセットに存在する言語情報を活用できるように,シンプルな処方薬を考案した。
論文 参考訳(メタデータ) (2022-07-15T17:50:51Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。