論文の概要: Identity Inference from CLIP Models using Only Textual Data
- arxiv url: http://arxiv.org/abs/2405.14517v1
- Date: Thu, 23 May 2024 12:54:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 15:05:17.926510
- Title: Identity Inference from CLIP Models using Only Textual Data
- Title(参考訳): テキストデータのみを用いたCLIPモデルからの同一性推論
- Authors: Songze Li, Ruoxi Cheng, Xiaojun Jia,
- Abstract要約: CLIPモデルにおけるID推論の既存の方法は、完全なPIIでモデルをクエリする必要がある。
従来のメンバーシップ推論攻撃(MIA)は、ターゲットモデルの振る舞いを模倣するためにシャドーモデルを訓練する。
テキストデータのみを用いてターゲットモデルに問い合わせる新しいID推論法である,CLIP モデルにおけるテキスト・ユニモーダル・ディテクター (TUNI) を提案する。
- 参考スコア(独自算出の注目度): 12.497110441765274
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The widespread usage of large-scale multimodal models like CLIP has heightened concerns about the leakage of personally identifiable information (PII). Existing methods for identity inference in CLIP models, i.e., to detect the presence of a person's PII used for training a CLIP model, require querying the model with full PII, including textual descriptions of the person and corresponding images (e.g., the name and the face photo of the person). However, this may lead to potential privacy breach of the image, as it may have not been seen by the target model yet. Additionally, traditional membership inference attacks (MIAs) train shadow models to mimic the behaviors of the target model, which incurs high computational costs, especially for large CLIP models. To address these challenges, we propose a textual unimodal detector (TUNI) in CLIP models, a novel method for ID inference that 1) queries the target model with only text data; and 2) does not require training shadow models. Firstly, we develop a feature extraction algorithm, guided by the CLIP model, to extract features from a text description. TUNI starts with randomly generating textual gibberish that were clearly not utilized for training, and leverages their feature vectors to train a system of anomaly detectors. During inference, the feature vector of each test text is fed into the anomaly detectors to determine if the person's PII is in the training set (abnormal) or not (normal). Moreover, TUNI can be further strengthened integrating real images associated with the tested individuals, if available at the detector. Extensive experiments of TUNI across various CLIP model architectures and datasets demonstrate its superior performance over baselines, albeit with only text data.
- Abstract(参考訳): CLIPのような大規模マルチモーダルモデルの普及により、個人識別情報(PII)の漏洩に対する懸念が高まっている。
既存のCLIPモデルにおける身元推定方法、すなわち、CLIPモデルのトレーニングに使用する人物のPIIの存在を検出するには、人物のテキスト記述と対応する画像(例えば、人物の名前と顔写真)を含む完全なPIIでモデルをクエリする必要がある。
しかし、これは画像の潜在的なプライバシー侵害につながる可能性がある。
さらに、従来のメンバーシップ推論攻撃(MIA)は、特に大規模CLIPモデルにおいて高い計算コストを発生させるターゲットモデルの振る舞いを模倣するためにシャドウモデルを訓練する。
これらの課題に対処するため、我々はCLIPモデルにおけるテキスト・ユニモーダル・ディテクター(TUNI)を提案する。
1)ターゲットモデルをテキストデータのみでクエリし、
2) シャドウモデルのトレーニングは不要。
まず,CLIPモデルによって導かれる特徴抽出アルゴリズムを開発し,テキスト記述から特徴抽出を行う。
TUNIは、訓練に明らかに使われていないテキストジベリッシュをランダムに生成し、それらの特徴ベクトルを活用して、異常検出システムのトレーニングを行う。
推論中、各テストテキストの特徴ベクトルが異常検知器に入力され、その人のPIIがトレーニングセット(異常)にあるか否か(正常)を決定する。
さらに、TUNIは、検出器で利用可能であれば、テスト対象と関連する実際の画像の統合をさらに強化することができる。
様々なCLIPモデルアーキテクチャとデータセットにわたるTUNIの大規模な実験は、テキストデータだけで、ベースラインよりも優れたパフォーマンスを示している。
関連論文リスト
- Gibberish is All You Need for Membership Inference Detection in Contrastive Language-Audio Pretraining [3.7144455366570055]
既存のMIAは入力としてオーディオを必要とし、音声プリントの露出を危険にさらし、コストのかかるシャドウモデルを必要とする。
我々はまず,CLAPが与える会員推論検出に基づく確率ランキングである PRMID を提案し,訓練シャドウモデルを必要としない。
次に,テキストデータのみを用いて対象モデルを問合せする一助話者レベルメンバシップ推定器USMIDを提案する。
論文 参考訳(メタデータ) (2024-10-24T02:26:57Z) - Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。
我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。
CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-06T06:30:17Z) - A Sober Look at the Robustness of CLIPs to Spurious Features [45.87070442259975]
私たちはCLIPモデルが現実的なスプリアス機能に依存していることを明らかにするために、CounterAnimalという新しいデータセットを作成しました。
評価の結果、CounterAnimalが取得したスプリアス特性は、異なるバックボーンとプレトレインデータを持つCLIPモデルによって総称的に学習されるが、ImageNetモデルへの影響は限定的であることが示された。
論文 参考訳(メタデータ) (2024-03-18T06:04:02Z) - Is my Data in your AI Model? Membership Inference Test with Application to Face Images [18.402616111394842]
この記事では、AI/MLモデルのトレーニング中に与えられたデータが使用されているかどうかを経験的に評価することを目的とした新しいアプローチである、メンバシップ推論テスト(MINT)を紹介します。
本稿では,学習過程に使用されるデータに監査モデルが露出した場合に現れるアクティベーションパターンを学習するための2つのMINTアーキテクチャを提案する。
実験は6つの公開データベースを使って行われ、合計で2200万以上の顔画像で構成されている。
論文 参考訳(メタデータ) (2024-02-14T15:09:01Z) - Random Word Data Augmentation with CLIP for Zero-Shot Anomaly Detection [3.75292409381511]
本稿では,ゼロショット異常検出のためのデータソースとして,視覚言語モデルCLIPを利用する新しい手法を提案する。
生成された埋め込みをトレーニングデータとして使用することにより、フィードフォワードニューラルネットワークは、CLIPの埋め込みから正常および異常の特徴を抽出する。
実験により, ゼロショット設定において, 精巧なプロンプトアンサンブルを伴わずに, 最先端の性能を達成できることが実証された。
論文 参考訳(メタデータ) (2023-08-22T01:55:03Z) - Adapting Contrastive Language-Image Pretrained (CLIP) Models for
Out-of-Distribution Detection [1.597617022056624]
本研究では,視覚的アウトオブディストリビューション(OOD)検出のための事前訓練された特徴抽出器に関する総合的研究を行った。
我々は,OOD検出のための視覚言語モデルに適応するスタイリット擬似ラベル探索(PLP)と呼ばれる,シンプルでスケーラブルな新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-10T10:02:18Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - A Unified Understanding of Deep NLP Models for Text Classification [88.35418976241057]
我々は、テキスト分類のためのNLPモデルの統一的な理解を可能にする視覚解析ツールDeepNLPVisを開発した。
主要なアイデアは相互情報に基づく尺度であり、モデルの各レイヤがサンプル内の入力語の情報をどのように保持するかを定量的に説明する。
コーパスレベル、サンプルレベル、単語レベルビジュアライゼーションで構成されるマルチレベルビジュアライゼーションは、全体トレーニングセットから個々のサンプルまでの分析をサポートする。
論文 参考訳(メタデータ) (2022-06-19T08:55:07Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - Unsupervised Noisy Tracklet Person Re-identification [100.85530419892333]
本稿では,非照合トラックレットデータから識別的人物再識別モデルを訓練できる選択的トラックレット学習(STL)手法を提案する。
これにより、カメラビュー全体で人物の画像/トラックレットの真のマッチングペアを完全にラベル付けする面倒でコストのかかるプロセスが回避されます。
提案手法は生トラックレットの任意のノイズデータに対して特に頑健であるため,制約のない追跡データから識別モデル学習にスケーラブルである。
論文 参考訳(メタデータ) (2021-01-16T07:31:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。