論文の概要: ALGEN: Few-shot Inversion Attacks on Textual Embeddings using Alignment and Generation
- arxiv url: http://arxiv.org/abs/2502.11308v2
- Date: Tue, 18 Feb 2025 10:07:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:09:04.602662
- Title: ALGEN: Few-shot Inversion Attacks on Textual Embeddings using Alignment and Generation
- Title(参考訳): ALGEN:アライメントとジェネレーションを用いたテキスト埋め込みのインバージョン攻撃
- Authors: Yiyi Chen, Qiongkai Xu, Johannes Bjerva,
- Abstract要約: ALGEN(alignment and generation)を用いたテキスト・エンベディング・インバージョン・アタックを提案する。
ALGEN攻撃はドメインや言語間で効果的に転送でき、重要な情報を明らかにする。
我々は,NLPに埋め込みアライメントを応用した新しいテキスト埋め込みインバージョンパラダイムを構築した。
- 参考スコア(独自算出の注目度): 9.220337458064765
- License:
- Abstract: With the growing popularity of Large Language Models (LLMs) and vector databases, private textual data is increasingly processed and stored as numerical embeddings. However, recent studies have proven that such embeddings are vulnerable to inversion attacks, where original text is reconstructed to reveal sensitive information. Previous research has largely assumed access to millions of sentences to train attack models, e.g., through data leakage or nearly unrestricted API access. With our method, a single data point is sufficient for a partially successful inversion attack. With as little as 1k data samples, performance reaches an optimum across a range of black-box encoders, without training on leaked data. We present a Few-shot Textual Embedding Inversion Attack using ALignment and GENeration (ALGEN), by aligning victim embeddings to the attack space and using a generative model to reconstruct text. We find that ALGEN attacks can be effectively transferred across domains and languages, revealing key information. We further examine a variety of defense mechanisms against ALGEN, and find that none are effective, highlighting the vulnerabilities posed by inversion attacks. By significantly lowering the cost of inversion and proving that embedding spaces can be aligned through one-step optimization, we establish a new textual embedding inversion paradigm with broader applications for embedding alignment in NLP.
- Abstract(参考訳): LLM(Large Language Models)やベクトルデータベースの普及に伴い、プライベートテキストデータはますます処理され、数値埋め込みとして保存されるようになっている。
しかし、最近の研究では、そのような埋め込みは、原文を再構築して機密情報を明らかにする逆攻撃に弱いことが証明されている。
従来の研究は、データリークやほとんど制限のないAPIアクセスを通じて、攻撃モデルをトレーニングするための数百万の文へのアクセスを前提としていた。
提案手法では, インバージョン攻撃を部分的に成功させるには, 単一のデータポイントが十分である。
最大1kのデータサンプルで、パフォーマンスはブラックボックスエンコーダの範囲で最適に達し、漏洩したデータをトレーニングする必要がない。
本稿では,アライメントとジェネレーション(ALGEN)を用いたテキスト埋め込みインバージョン攻撃について,被害者の埋め込みをアタック空間に整列させ,生成モデルを用いてテキストを再構成する手法を提案する。
ALGEN攻撃はドメインや言語間で効果的に転送でき、重要な情報を明らかにする。
さらに、ALGENに対する様々な防御機構について検討し、逆攻撃による脆弱性を浮き彫りにして、効果がないことを確認した。
インバージョンコストを大幅に削減し,一段階最適化により埋め込み空間が整列可能であることを証明することにより,NLPへの埋め込みアライメントのためのより広範な応用を含む,新たなテキスト埋め込みインバージョンパラダイムを確立する。
関連論文リスト
- Mitigating Privacy Risks in LLM Embeddings from Embedding Inversion [21.83264152003852]
埋め込み型インバージョン攻撃を緩和する新しい防御機構であるEguardを導入する。
当社のアプローチは、高いパフォーマンスを維持しながら95%以上のトークンを反転から保護し、プライバシーリスクを著しく低減します。
論文 参考訳(メタデータ) (2024-11-06T14:42:41Z) - Effective and Efficient Adversarial Detection for Vision-Language Models via A Single Vector [97.92369017531038]
Diverse hArmful Responses (RADAR) を用いた新しい laRge-scale Adervsarial 画像データセットを構築した。
そこで我々は,視覚言語モデル (VLM) の隠れ状態から抽出した1つのベクトルを利用して,入力中の良質な画像に対して対向画像を検出する,新しいiN時間埋め込み型AdveRSarial Image Detectction (NEARSIDE) 法を開発した。
論文 参考訳(メタデータ) (2024-10-30T10:33:10Z) - Scalable Extraction of Training Data from (Production) Language Models [93.7746567808049]
本稿では,学習データセットの事前知識を必要とせず,機械学習モデルに問い合わせることで,相手が効率的に抽出できる学習データについて検討する。
敵は、PythiaやGPT-Neoのようなオープンソースの言語モデル、LLaMAやFalconのようなセミオープンモデル、ChatGPTのようなクローズドモデルから、ギガバイトのトレーニングデータを抽出できることを示す。
論文 参考訳(メタデータ) (2023-11-28T18:47:03Z) - Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game [86.66627242073724]
本稿では,126,000以上のプロンプトインジェクションと46,000以上のプロンプトベースのプロンプトインジェクションに対する「防御」のデータセットを提案する。
我々の知る限り、これは現在、命令追従 LLM に対する人間生成の敵例の最大のデータセットである。
また、データセットを使用して、2種類のプロンプトインジェクションに対する耐性のベンチマークを作成し、これをプロンプト抽出とプロンプトハイジャックと呼ぶ。
論文 参考訳(メタデータ) (2023-11-02T06:13:36Z) - Sentence Embedding Leaks More Information than You Expect: Generative
Embedding Inversion Attack to Recover the Whole Sentence [37.63047048491312]
本稿では,文の埋め込みのみに基づいて入力シーケンスを再構築することを目的とした,ジェネレーティブな埋め込み反転攻撃(GEIA)を提案する。
言語モデルへのブラックボックスアクセスを考えると、文の埋め込みを初期トークンの表現として扱い、列を直接デコードするために強力なデコーダモデルを訓練または微調整する。
論文 参考訳(メタデータ) (2023-05-04T17:31:41Z) - Text Revealer: Private Text Reconstruction via Model Inversion Attacks
against Transformers [22.491785618530397]
emphText Revealerを定式化する -- トランスフォーマーを用いたテキスト分類に対するテキスト再構成のための最初のモデル逆転攻撃。
我々の攻撃は、ターゲットモデルへのアクセスにより、トレーニングデータに含まれるプライベートテキストを忠実に再構築する。
実験により,我々の攻撃はテキスト長の異なるデータセットに対して有効であり,正確さでプライベートテキストを再構築できることが実証された。
論文 参考訳(メタデータ) (2022-09-21T17:05:12Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - TextAttack: A Framework for Adversarial Attacks, Data Augmentation, and
Adversarial Training in NLP [31.50366278386976]
TextAttackは、NLPにおける敵対的攻撃、データ拡張、および敵対的トレーニングのためのPythonフレームワークである。
文献からの16の敵攻撃の実装を提供し、さまざまなモデルとデータセットをサポートしている。
TextAttackは、NLPを民主化している。誰でも、ほんの数行のコードで、どんなモデルやデータセットでも、データ拡張と敵対的なトレーニングを試すことができる。
論文 参考訳(メタデータ) (2020-04-29T21:33:35Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。