論文の概要: Information Leakage of Sentence Embeddings via Generative Embedding Inversion Attacks
- arxiv url: http://arxiv.org/abs/2504.16609v1
- Date: Wed, 23 Apr 2025 10:50:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 16:52:53.361005
- Title: Information Leakage of Sentence Embeddings via Generative Embedding Inversion Attacks
- Title(参考訳): 生成的埋め込みインバージョン攻撃による文埋め込みの情報漏洩
- Authors: Antonios Tragoudaras, Theofanis Aslanidis, Emmanouil Georgios Lionis, Marina Orozco González, Panagiotis Eustratiadis,
- Abstract要約: 本研究では,様々なニューラル文埋め込みモデルにまたがってGEIAの結果を再現する。
本稿では,GEIA で提案されている攻撃者のアーキテクチャを変更することなく,シンプルかつ効果的な手法を提案する。
本研究の結果から, 文の埋め込み作成に使用する人気モデルの事前学習知識に関連する有意義な情報を, 相手側が回収できることが示唆された。
- 参考スコア(独自算出の注目度): 1.6427658855248815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text data are often encoded as dense vectors, known as embeddings, which capture semantic, syntactic, contextual, and domain-specific information. These embeddings, widely adopted in various applications, inherently contain rich information that may be susceptible to leakage under certain attacks. The GEIA framework highlights vulnerabilities in sentence embeddings, demonstrating that they can reveal the original sentences they represent. In this study, we reproduce GEIA's findings across various neural sentence embedding models. Additionally, we contribute new analysis to examine whether these models leak sensitive information from their training datasets. We propose a simple yet effective method without any modification to the attacker's architecture proposed in GEIA. The key idea is to examine differences between log-likelihood for masked and original variants of data that sentence embedding models have been pre-trained on, calculated on the embedding space of the attacker. Our findings indicate that following our approach, an adversary party can recover meaningful sensitive information related to the pre-training knowledge of the popular models used for creating sentence embeddings, seriously undermining their security. Our code is available on: https://github.com/taslanidis/GEIA
- Abstract(参考訳): テキストデータは、しばしば、意味、構文、文脈、ドメイン固有の情報をキャプチャする埋め込みとして知られる密度の高いベクトルとしてエンコードされる。
これらの埋め込みは、様々なアプリケーションで広く採用されており、本質的には特定の攻撃による漏洩の影響を受けやすい豊富な情報を含んでいる。
GEIAフレームワークは、文の埋め込みにおける脆弱性を強調し、彼らが表現した元の文を明らかにすることを実証している。
本研究では,様々なニューラル文埋め込みモデルにまたがってGEIAの結果を再現する。
さらに、これらのモデルがトレーニングデータセットからセンシティブな情報を漏洩するかどうかを調べるために、新しい分析に貢献する。
本稿では,GEIA で提案されている攻撃者のアーキテクチャを変更することなく,シンプルかつ効果的な手法を提案する。
鍵となる考え方は、攻撃者の埋め込み空間で計算された、文の埋め込みモデルが事前訓練されている、マスキングされたログと元の不変データの違いを調べることである。
本研究の結果から, 文の埋め込みに使用する人気モデルの事前学習知識に関連する有意義な情報を, 相手側が回収し, 安全性を著しく損なうことが示唆された。
私たちのコードは、https://github.com/taslanidis/GEIAで利用可能です。
関連論文リスト
- ALGEN: Few-shot Inversion Attacks on Textual Embeddings using Alignment and Generation [9.220337458064765]
ALGEN(alignment and generation)を用いたテキスト・エンベディング・インバージョン・アタックを提案する。
ALGEN攻撃はドメインや言語間で効果的に転送でき、重要な情報を明らかにする。
我々は,NLPに埋め込みアライメントを応用した新しいテキスト埋め込みインバージョンパラダイムを構築した。
論文 参考訳(メタデータ) (2025-02-16T23:11:13Z) - REVS: Unlearning Sensitive Information in Language Models via Rank Editing in the Vocabulary Space [35.61862064581971]
言語モデル(LM)は、トレーニングデータに見られる機密情報や個人識別可能な情報(PII)を不注意に記憶・拡散し、プライバシー上の懸念を引き起こすリスクがある。
LMから機密情報を学習する非段階的手法であるREVSを提案する。
論文 参考訳(メタデータ) (2024-06-13T17:02:32Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Adaptive Domain Inference Attack with Concept Hierarchy [4.772368796656325]
最もよく知られているモデルターゲットアタックは、アタッカーがアプリケーションドメインを学んだり、データの分散を訓練したと仮定する。
モデルAPIからドメイン情報を取り除くことは、これらの攻撃からモデルを保護することができるか?
提案した適応的ドメイン推論攻撃(ADI)は、トレーニングデータの関連するサブセットを評価できることを示す。
論文 参考訳(メタデータ) (2023-12-22T22:04:13Z) - Can Sensitive Information Be Deleted From LLMs? Objectives for Defending
Against Extraction Attacks [73.53327403684676]
本稿では,モデル重みから直接センシティブな情報を削除する作業を研究するためのアタック・アンド・ディフェンスフレームワークを提案する。
モデル重み付けへの直接的編集について検討する。この手法は、削除された情報が将来的な攻撃によって抽出されないことを保証すべきである。
我々のホワイトボックスやブラックボックス攻撃は、編集されたモデルの38%から「削除された」情報を復元できるので、ROMEのような最先端のモデル編集方法でさえ、GPT-Jのようなモデルから事実情報を真に消し去るのに苦労している。
論文 参考訳(メタデータ) (2023-09-29T17:12:43Z) - Substance or Style: What Does Your Image Embedding Know? [55.676463077772866]
画像基盤モデルは、主にセマンティックコンテンツとして評価されている。
画像のスタイル,品質,自然および人工的な変換など,多数の軸に沿った埋め込みの視覚的内容を測定する。
画像テキストモデル (CLIP と ALIGN) はマスキングベースモデル (CAN と MAE) よりもスタイル転送の新しい例を認識するのが得意である。
論文 参考訳(メタデータ) (2023-07-10T22:40:10Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Be Careful about Poisoned Word Embeddings: Exploring the Vulnerability
of the Embedding Layers in NLP Models [27.100909068228813]
最近の研究では、バックドア攻撃と呼ばれる自然言語処理(NLP)モデルに対するセキュリティの脅威が明らかになった。
本稿では,1つの単語埋め込みベクトルを変更することで,データフリーな方法でモデルをハックできることを見出した。
感情分析および文対分類タスクの実験結果から,本手法はより効率的でステルス性が高いことが示された。
論文 参考訳(メタデータ) (2021-03-29T12:19:45Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z) - Information Leakage in Embedding Models [19.497371893593918]
埋め込みは汎用意味論を符号化するだけでなく、入力データに関する機密情報を漏洩するベクトルもしばしば提示することを示した。
埋め込みによって漏洩する可能性のある情報を体系的に研究するために,攻撃の3つのクラスを開発する。
論文 参考訳(メタデータ) (2020-03-31T18:33:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。