論文の概要: Understanding the Vulnerability of CLIP to Image Compression
- arxiv url: http://arxiv.org/abs/2311.14029v1
- Date: Thu, 23 Nov 2023 14:33:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 23:30:52.233916
- Title: Understanding the Vulnerability of CLIP to Image Compression
- Title(参考訳): 画像圧縮におけるCLIPの脆弱性の理解
- Authors: Cangxiong Chen, Vinay P. Namboodiri, Julian Padget
- Abstract要約: CLIPは圧縮条件下での画像品質の変化に対して脆弱であることを示す。
我々はCIFAR-10とSTL-10でこの脆弱性を広範囲に評価した。
- 参考スコア(独自算出の注目度): 26.536819387473482
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: CLIP is a widely used foundational vision-language model that is used for
zero-shot image recognition and other image-text alignment tasks. We
demonstrate that CLIP is vulnerable to change in image quality under
compression. This surprising result is further analysed using an attribution
method-Integrated Gradients. Using this attribution method, we are able to
better understand both quantitatively and qualitatively exactly the nature in
which the compression affects the zero-shot recognition accuracy of this model.
We evaluate this extensively on CIFAR-10 and STL-10. Our work provides the
basis to understand this vulnerability of CLIP and can help us develop more
effective methods to improve the robustness of CLIP and other vision-language
models.
- Abstract(参考訳): CLIPは、ゼロショット画像認識やその他の画像テキストアライメントタスクに使用される、基礎的な視覚言語モデルである。
圧縮条件下での画質変化に対してCLIPは脆弱であることを示す。
この驚くべき結果は帰属法統合勾配を用いてさらに解析される。
この属性法を用いることで,圧縮がゼロショット認識精度に影響を及ぼす性質を定量的かつ定性的に理解することができる。
CIFAR-10とSTL-10で広く評価した。
私たちの研究は、CLIPのこの脆弱性を理解する基盤を提供し、CLIPや他のビジョン言語モデルの堅牢性を改善するためのより効果的な方法の開発に役立つ。
関連論文リスト
- TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - ExIQA: Explainable Image Quality Assessment Using Distortion Attributes [0.3683202928838613]
本稿では属性学習に基づく歪み同定のための説明可能なアプローチを提案する。
効率的なトレーニングのために,10万の画像からなるデータセットを生成する。
提案手法はPLCCとSRCCの両方で複数のデータセットにまたがるSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-10T20:28:14Z) - Unveiling Glitches: A Deep Dive into Image Encoding Bugs within CLIP [0.0]
私たちは、視覚と言語処理の統合で有名なCLIP(CLIP)に焦点を当てています。
私たちの目的は、CLIPの画像理解における繰り返し発生する問題と盲点を明らかにすることである。
画像に対するCLIPの解釈と人間の知覚との相違について明らかにした。
論文 参考訳(メタデータ) (2024-06-30T05:23:11Z) - SCLIP: Rethinking Self-Attention for Dense Vision-Language Inference [11.453253140479166]
セマンティックセグメンテーションにおけるコントラッシブ言語イメージ事前学習の可能性を高める。
自己注意を再考することで、CLIPは密集した予測タスクに適応できることがわかった。
従来のCLIPビジョンエンコーダの自己保持ブロックをCSAモジュールで置き換える。
論文 参考訳(メタデータ) (2023-12-04T03:18:46Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - Understanding Transferable Representation Learning and Zero-shot Transfer in CLIP [84.90129481336659]
CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。
そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:41:30Z) - Distilling Knowledge from Text-to-Image Generative Models Improves Visio-Linguistic Reasoning in CLIP [57.53087077735303]
本稿では,CLIPの構成的視覚言語推論を強化する軽量で効率的な蒸留法であるSDS-CLIPを紹介する。
提案手法は,Stable-Diffusionのような大規模テキスト・画像生成モデルから抽出した蒸留目標を用いた微細構造CLIPである。
挑戦的なWinogroundベンチマークでは、SDS-CLIPは様々なCLIPモデルの視覚言語性能を7%向上させ、AROデータセットでは、パフォーマンスを最大3%向上させた。
論文 参考訳(メタデータ) (2023-07-18T13:10:11Z) - Context-Aware Robust Fine-Tuning [23.027441849817922]
コントラスト言語-画像事前訓練(CLIP)モデルは、"[CLASS]"に属する画像を分類するゼロショット能力を有する
CLIPモデルの微調整は精度を向上させるが、下流タスクの堅牢性を犠牲にする。
本稿では,この問題を解決するためにコンテキスト対応ロバストファインチューニング(CAR-FT)を提案する。
論文 参考訳(メタデータ) (2022-11-29T13:07:41Z) - ReCLIP: A Strong Zero-Shot Baseline for Referring Expression
Comprehension [114.85628613911713]
大規模事前学習モデルは領域間の画像分類に有用である。
ReCLIPは単純だが強力なゼロショットベースラインであり、ReCのための最先端の大規模モデルであるCLIPを再利用する。
論文 参考訳(メタデータ) (2022-04-12T17:55:38Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。