論文の概要: CLIPMasterPrints: Fooling Contrastive Language-Image Pre-training Using
Latent Variable Evolution
- arxiv url: http://arxiv.org/abs/2307.03798v1
- Date: Fri, 7 Jul 2023 18:54:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 17:24:51.414413
- Title: CLIPMasterPrints: Fooling Contrastive Language-Image Pre-training Using
Latent Variable Evolution
- Title(参考訳): CLIPMasterPrints:潜在変数進化を用いたコントラスト言語イメージ事前学習
- Authors: Matthias Freiberger, Peter Kun, Anders Sundnes L{\o}vlie, Sebastian
Risi
- Abstract要約: コントラスト言語-画像事前学習モデルは、マスターイメージを騙すのに脆弱であることを示す。
フーリングマスターイメージは、CLIPモデルの信頼性スコアを最大化し、広範囲に変化するプロンプトのかなりの数に設定することができる。
我々はCLIPと関連するマルチモーダルアプローチにおけるモダリティギャップの緩和について論じる。
- 参考スコア(独自算出の注目度): 7.844709223688294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Models leveraging both visual and textual data such as Contrastive
Language-Image Pre-training (CLIP), are increasingly gaining importance. In
this work, we show that despite their versatility, such models are vulnerable
to what we refer to as fooling master images. Fooling master images are capable
of maximizing the confidence score of a CLIP model for a significant number of
widely varying prompts, while being unrecognizable for humans. We demonstrate
how fooling master images can be mined by searching the latent space of
generative models by means of an evolution strategy or stochastic gradient
descent. We investigate the properties of the mined fooling master images, and
find that images trained on a small number of image captions potentially
generalize to a much larger number of semantically related captions. Further,
we evaluate two possible mitigation strategies and find that vulnerability to
fooling master examples is closely related to a modality gap in contrastive
pre-trained multi-modal networks. From the perspective of vulnerability to
off-manifold attacks, we therefore argue for the mitigation of modality gaps in
CLIP and related multi-modal approaches. Source code and mined CLIPMasterPrints
are available at https://github.com/matfrei/CLIPMasterPrints.
- Abstract(参考訳): Contrastive Language-Image Pre-training (CLIP) のような視覚的およびテキスト的データを活用するモデルの重要性が高まっている。
本研究は,その汎用性にもかかわらず,このようなモデルが,マスタイメージを騙すような表現に対して脆弱であることを示す。
マスタイメージの摂食は、CLIPモデルの信頼性スコアを、人間には認識できないながら、かなりの数の様々なプロンプトに対して最大化することができる。
本稿では,生成モデルの潜在空間を進化戦略や確率的勾配降下によって探索することで,マスタイメージを騙す方法を示す。
マイニングされた騙されたマスター画像の特性を調査し、少数の画像キャプションで訓練された画像が、より多くの意味的に関連するキャプションに一般化する可能性を見出した。
さらに, 2 つの緩和策を評価し,マスター例を騙す脆弱性は, 対照的な事前学習型マルチモーダルネットワークにおけるモダリティギャップと密接に関連していることを確認した。
脆弱性からオフマンフォールド攻撃への視点から、我々はCLIPと関連するマルチモーダルアプローチにおけるモダリティギャップの緩和を論じる。
ソースコードとマイニングされたCLIPMasterPrintsはhttps://github.com/matfrei/CLIPMasterPrintsで入手できる。
関連論文リスト
- CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - Self-Supervised Open-Ended Classification with Small Visual Language
Models [60.23212389067007]
我々は、小さな視覚言語モデルを用いたオープンエンド分類のための数ショットの能力を解放する自己教師型アプローチであるSeCAtを提案する。
約1Bパラメータを持つモデルを使用することで、FrozenやBrobAGeといった、はるかに大きなモデルの少数ショット能力より優れています。
論文 参考訳(メタデータ) (2023-09-30T21:41:21Z) - GOPro: Generate and Optimize Prompts in CLIP using Self-Supervised
Learning [14.532939492926406]
我々は、CLIPの対照的な損失とSSLの損失の課題を克服するために、GOProと呼ばれる素早い学習ベースモデルを提案する。
GOroは、CLIPとSSLの長所を原則的に組み合わせて、3つの損失目標すべてに対してエンドツーエンドでトレーニングされている。
論文 参考訳(メタデータ) (2023-08-22T17:53:26Z) - MOCA: Self-supervised Representation Learning by Predicting Masked
Online Codebook Assignments [48.67345147676275]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
相乗的, 計算効率の両パラダイムを効果的に活用する方法を示す。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive
Learning [63.72975421109622]
CleanCLIPは、バックドア攻撃によって引き起こされる学習された刺激的関連を弱める微調整フレームワークである。
CleanCLIPは、マルチモーダル・コントラッシブ・ラーニングに対するバックドア・アタックを根絶しながら、良質な例によるモデル性能を維持している。
論文 参考訳(メタデータ) (2023-03-06T17:48:32Z) - CLIPPO: Image-and-Language Understanding from Pixels Only [36.433133689137875]
我々は、画像、テキスト、マルチモーダルタスクを実行するための純粋なピクセルベースモデルを提案する。
我々のモデルは対照的な損失だけで訓練されているので、CLIP-Pixels Only (CLIPPO)と呼ぶ。
画像テキストのコントラスト学習と次文のコントラスト学習を併用することで、CLIPPOは自然言語理解タスクでうまく機能する。
論文 参考訳(メタデータ) (2022-12-15T18:52:08Z) - Is a Caption Worth a Thousand Images? A Controlled Study for
Representation Learning [88.5382122413913]
本研究では,従来の画像のみの手法よりも伝達可能な表現を持つ視覚モデルが得られるかを検討した。
画像のみの手法は、より多くの画像データでトレーニングされた場合でも、CLIPの転送性能と一致しないことがわかった。
この結果から,CLIPが既存の事前学習データセットに存在する言語情報を活用できるように,シンプルな処方薬を考案した。
論文 参考訳(メタデータ) (2022-07-15T17:50:51Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。