論文の概要: Information Leakage in Embedding Models
- arxiv url: http://arxiv.org/abs/2004.00053v2
- Date: Wed, 19 Aug 2020 19:58:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 23:54:31.017238
- Title: Information Leakage in Embedding Models
- Title(参考訳): 埋め込みモデルにおける情報漏洩
- Authors: Congzheng Song and Ananth Raghunathan
- Abstract要約: 埋め込みは汎用意味論を符号化するだけでなく、入力データに関する機密情報を漏洩するベクトルもしばしば提示することを示した。
埋め込みによって漏洩する可能性のある情報を体系的に研究するために,攻撃の3つのクラスを開発する。
- 参考スコア(独自算出の注目度): 19.497371893593918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embeddings are functions that map raw input data to low-dimensional vector
representations, while preserving important semantic information about the
inputs. Pre-training embeddings on a large amount of unlabeled data and
fine-tuning them for downstream tasks is now a de facto standard in achieving
state of the art learning in many domains.
We demonstrate that embeddings, in addition to encoding generic semantics,
often also present a vector that leaks sensitive information about the input
data. We develop three classes of attacks to systematically study information
that might be leaked by embeddings. First, embedding vectors can be inverted to
partially recover some of the input data. As an example, we show that our
attacks on popular sentence embeddings recover between 50\%--70\% of the input
words (F1 scores of 0.5--0.7). Second, embeddings may reveal sensitive
attributes inherent in inputs and independent of the underlying semantic task
at hand. Attributes such as authorship of text can be easily extracted by
training an inference model on just a handful of labeled embedding vectors.
Third, embedding models leak moderate amount of membership information for
infrequent training data inputs. We extensively evaluate our attacks on various
state-of-the-art embedding models in the text domain. We also propose and
evaluate defenses that can prevent the leakage to some extent at a minor cost
in utility.
- Abstract(参考訳): 埋め込みは、入力に関する重要な意味情報を保存しながら、生の入力データを低次元のベクトル表現にマッピングする関数である。
大量のラベルのないデータへの事前学習の埋め込みと、下流タスクのための微調整は、今や多くのドメインで最先端のアート学習を実現するためのデファクトスタンダードとなっている。
埋め込みは汎用意味論を符号化するだけでなく、入力データに関する機密情報を漏洩するベクトルもしばしば提示することを示した。
埋め込みによって漏洩する可能性のある情報を体系的に研究するために,攻撃の3つのクラスを開発する。
まず、埋め込みベクトルを逆転させて入力データの一部を部分的に復元する。
例えば、一般的な文埋め込みに対する攻撃は入力語の50\%--70\%で回復する(f1スコアは0.5--0.7)。
第二に、埋め込みは入力に固有のセンシティブな属性を明らかにし、手元にあるセマンティックタスクとは独立している。
テキストの著者のような属性は、少数のラベル付き埋め込みベクトル上で推論モデルを訓練することで容易に抽出できる。
第3に、埋め込みモデルは、頻繁なトレーニングデータ入力のための適度な量の会員情報をリークする。
我々は、テキストドメインにおける様々な最先端の埋め込みモデルに対する攻撃を広範囲に評価する。
また,小規模の費用である程度の漏洩を防止する防衛策を提案し,評価する。
関連論文リスト
- On Adversarial Examples for Text Classification by Perturbing Latent Representations [0.0]
テキスト分類における逆例に対して,ディープラーニングは脆弱であることを示す。
この弱点は、ディープラーニングがそれほど堅牢ではないことを示している。
我々は,テキスト分類器の頑健性を測定するフレームワークを,分類器の勾配を用いて構築する。
論文 参考訳(メタデータ) (2024-05-06T18:45:18Z) - Indiscriminate Data Poisoning Attacks on Pre-trained Feature Extractors [26.36344184385407]
本稿では,事前訓練した特徴抽出器を応用した下流タスクに対する無差別攻撃の脅威について検討する。
入力空間攻撃とは,(1)既存の攻撃を修正して入力空間に有毒なデータを作る攻撃と,(2)学習した特徴表現をデータセットとして扱うことで有毒な特徴を見つける攻撃である。
実験では、同じデータセット上の微調整やドメイン適応を考慮した転帰学習など、下流の一般的なタスクにおける攻撃について検討した。
論文 参考訳(メタデータ) (2024-02-20T01:12:59Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - 3D Adversarial Augmentations for Robust Out-of-Domain Predictions [115.74319739738571]
ドメイン外データへの一般化の改善に注力する。
対象を逆向きに変形させるベクトルの集合を学習する。
本研究では,学習したサンプル非依存ベクトルをモデルトレーニング時に利用可能なオブジェクトに適用することにより,対数拡大を行う。
論文 参考訳(メタデータ) (2023-08-29T17:58:55Z) - Learning to Unlearn: Instance-wise Unlearning for Pre-trained
Classifiers [71.70205894168039]
そこでは、事前訓練されたモデルからインスタンスのセットに関する情報を削除することを目標としています。
本稿では,1)表現レベルでの忘れを克服するために,敵の例を活用すること,2)不必要な情報を伝播するネットワークパラメータをピンポイントする重み付け指標を活用すること,の2つの方法を提案する。
論文 参考訳(メタデータ) (2023-01-27T07:53:50Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Gradient Inversion Attack: Leaking Private Labels in Two-Party Split
Learning [12.335698325757491]
本稿では,ラベル所有者がラベル所有者のプライベートラベルを学習できるようにするラベル漏洩攻撃を提案する。
本攻撃では,複数クラスの画像分類問題と2値変換予測タスクについて,ほぼ完全精度でプライベートラベルデータを明らかにすることができる。
この手法は単純なデータセットに有効であるが、入力次元がより高くなるデータセットの実用性を著しく低下させる。
論文 参考訳(メタデータ) (2021-11-25T16:09:59Z) - Be Careful about Poisoned Word Embeddings: Exploring the Vulnerability
of the Embedding Layers in NLP Models [27.100909068228813]
最近の研究では、バックドア攻撃と呼ばれる自然言語処理(NLP)モデルに対するセキュリティの脅威が明らかになった。
本稿では,1つの単語埋め込みベクトルを変更することで,データフリーな方法でモデルをハックできることを見出した。
感情分析および文対分類タスクの実験結果から,本手法はより効率的でステルス性が高いことが示された。
論文 参考訳(メタデータ) (2021-03-29T12:19:45Z) - DeCLUTR: Deep Contrastive Learning for Unsupervised Textual
Representations [4.36561468436181]
教師なしテキスト表現のためのDeCLUTR: Deep Contrastive Learningを提案する。
本手法は,ユニバーサル文エンコーダにおける教師なしと教師なしの事前学習のパフォーマンスギャップを埋めるものである。
私たちのコードと事前訓練されたモデルは公開されており、新しいドメインに簡単に適応したり、目に見えないテキストを埋め込むのに使えます。
論文 参考訳(メタデータ) (2020-06-05T20:00:28Z) - Null It Out: Guarding Protected Attributes by Iterative Nullspace
Projection [51.041763676948705]
Iterative Null-space Projection (INLP) は神経表現から情報を取り除く新しい方法である。
提案手法は,単語埋め込みにおけるバイアスを軽減するとともに,複数クラス分類の設定において公平性を高めることができることを示す。
論文 参考訳(メタデータ) (2020-04-16T14:02:50Z) - Laplacian Denoising Autoencoder [114.21219514831343]
本稿では,新しいタイプの自動符号化器を用いてデータ表現を学習することを提案する。
勾配領域における潜伏クリーンデータを破損させて雑音入力データを生成する。
いくつかのビジュアルベンチマークの実験では、提案されたアプローチでより良い表現が学べることが示されている。
論文 参考訳(メタデータ) (2020-03-30T16:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。