論文の概要: Understanding and Mitigating the Threat of Vec2Text to Dense Retrieval
Systems
- arxiv url: http://arxiv.org/abs/2402.12784v1
- Date: Tue, 20 Feb 2024 07:49:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 16:34:49.654731
- Title: Understanding and Mitigating the Threat of Vec2Text to Dense Retrieval
Systems
- Title(参考訳): Vec2TextのDense Retrievalシステムに対する脅威の理解と軽減
- Authors: Shengyao Zhuang, Bevan Koopman, Xiaoran Chu, Guido Zuccon
- Abstract要約: テキスト埋め込みを反転させるテクニックであるVec2Textは、高密度検索システム内で深刻なプライバシー上の懸念を提起している。
本稿では,Vec2Textを用いたテキストの復元性に影響を与えるであろう埋め込みモデルの様々な側面について検討する。
そこで本研究では,テキスト復元可能性のリスクを軽減しつつ,同等のランク付け効率を確保できる埋め込み変換の修正を提案する。
- 参考スコア(独自算出の注目度): 30.78016941725723
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The introduction of Vec2Text, a technique for inverting text embeddings, has
raised serious privacy concerns within dense retrieval systems utilizing text
embeddings, including those provided by OpenAI and Cohere. This threat comes
from the ability for a malicious attacker with access to text embeddings to
reconstruct the original text.
In this paper, we investigate various aspects of embedding models that could
influence the recoverability of text using Vec2Text. Our exploration involves
factors such as distance metrics, pooling functions, bottleneck pre-training,
training with noise addition, embedding quantization, and embedding dimensions
-- aspects not previously addressed in the original Vec2Text paper. Through a
thorough analysis of these factors, our aim is to gain a deeper understanding
of the critical elements impacting the trade-offs between text recoverability
and retrieval effectiveness in dense retrieval systems. This analysis provides
valuable insights for practitioners involved in designing privacy-aware dense
retrieval systems. Additionally, we propose a straightforward fix for embedding
transformation that ensures equal ranking effectiveness while mitigating the
risk of text recoverability.
Furthermore, we extend the application of Vec2Text to the separate task of
corpus poisoning, where, theoretically, Vec2Text presents a more potent threat
compared to previous attack methods. Notably, Vec2Text does not require access
to the dense retriever's model parameters and can efficiently generate numerous
adversarial passages.
In summary, this study highlights the potential threat posed by Vec2Text to
existing dense retrieval systems, while also presenting effective methods to
patch and strengthen such systems against such risks.
- Abstract(参考訳): テキスト埋め込みを反転させるテクニックであるVec2Textの導入は、OpenAIやCohereなどのテキスト埋め込みを利用した密集検索システムにおいて、深刻なプライバシー上の懸念を提起している。
この脅威は、悪意のある攻撃者がテキスト埋め込みにアクセスして元のテキストを再構築する能力から生じる。
本稿では,Vec2Textを用いてテキストの復元性に影響を与えるであろう埋め込みモデルの様々な側面について検討する。
私たちの調査では、距離メトリクス、プーリング関数、ボトルネック事前トレーニング、ノイズの追加によるトレーニング、量子化の埋め込み、埋め込み次元といった要素が関係しています。
これらの要因を徹底的に分析することで,検索システムにおけるテキスト復元性と検索効率のトレードオフに影響を及ぼす重要な要素をより深く理解することを目的としている。
この分析は、プライバシーを意識した高密度検索システムの設計に関わる実践者にとって貴重な洞察を提供する。
さらに,テキスト復元のリスクを軽減しつつ,同一のランキング効果を保証する組込み変換の簡易な修正を提案する。
さらに、我々は、Vec2Textの適用をコーパス中毒の別のタスクに拡張し、理論上、Vec2Textは従来の攻撃方法よりも強力な脅威を示す。
特に、Vec2Textは、高密度レトリバーのモデルパラメータへのアクセスを必要とせず、多数の対向パスを効率的に生成できる。
本研究は,既存の高密度検索システムに対するvec2textの潜在的な脅威を浮き彫りにするとともに,そのようなシステムに対してパッチを当て,強化するための効果的な手法を提案する。
関連論文リスト
- CTINEXUS: Leveraging Optimized LLM In-Context Learning for Constructing Cybersecurity Knowledge Graphs Under Data Scarcity [49.657358248788945]
サイバー脅威インテリジェンス(CTI)レポートのテキスト記述は、サイバー脅威に関する豊富な知識源である。
現在のCTI抽出法は柔軟性と一般化性に欠けており、しばしば不正確で不完全な知識抽出をもたらす。
CTINexusは,大規模言語モデルのテキスト内学習(ICL)を最適化した新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-28T14:18:32Z) - Does Vec2Text Pose a New Corpus Poisoning Threat? [30.78016941725723]
Vec2Text – テキスト埋め込みインバージョンのためのメソッド – は、高密度検索システムに対する深刻なプライバシー上の懸念を提起している。
本稿では、Vec2Textを新たに検討し、コーパス中毒に対する脅威の程度について検討する。
特定の条件下では、Vec2Textによるコーパス中毒は、密集した検索システムの完全性とユーザエクスペリエンスに深刻な脅威をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-10-09T07:23:02Z) - Con-ReCall: Detecting Pre-training Data in LLMs via Contrastive Decoding [118.75567341513897]
既存のメソッドは通常、ターゲットテキストを分離して分析するか、非メンバーコンテキストでのみ分析する。
Con-ReCallは、メンバと非メンバのコンテキストによって誘導される非対称な分布シフトを利用する新しいアプローチである。
論文 参考訳(メタデータ) (2024-09-05T09:10:38Z) - Adversarial Text Rewriting for Text-aware Recommender Systems [21.73809272703814]
アイテム記述への依存は、eコマースプラットフォーム上での敵の売り手による操作に対して、レコメンデーターシステムに脆弱性をもたらすと論じる。
本稿では,テキスト認識レコメンデータシステムに対する新たなテキスト書き換えフレームワークを提案する。
本研究は,人的評価者から現実的と認識されつつも,販売者が不当に商品を上乗せするために書き直し攻撃を活用できることを実証する。
論文 参考訳(メタデータ) (2024-08-01T06:14:42Z) - QAEA-DR: A Unified Text Augmentation Framework for Dense Retrieval [12.225881591629815]
厳密な検索では、長いテキストを密度の高いベクトルに埋め込むと、情報が失われ、クエリとテキストのマッチングが不正確になる。
近年の研究では,文の埋め込みモデルや検索プロセスの改善を中心に研究が進められている。
本稿では,高密度検索のための新しいテキスト拡張フレームワークを導入し,生文書を高密度テキスト形式に変換する。
論文 参考訳(メタデータ) (2024-07-29T17:39:08Z) - Information Leakage from Embedding in Large Language Models [5.475800773759642]
本研究では,入力再構成攻撃によるプライバシー侵害の可能性を検討することを目的とする。
まず,モデルの隠れ状態からオリジナルテキストを再構築する2つの基本手法を提案する。
次に、トランスフォーマーをベースとしたEmbed Parrotを提案し、深層への埋め込みから入力を再構築する。
論文 参考訳(メタデータ) (2024-05-20T09:52:31Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z) - Improving the Robustness of Summarization Systems with Dual Augmentation [68.53139002203118]
頑健な要約システムは、入力中の特定の単語の選択やノイズに関わらず、文書のギストをキャプチャできるべきである。
まず,単語レベルの同義語置換や雑音を含む摂動に対する要約モデルの頑健性について検討する。
SummAttackerを提案する。これは言語モデルに基づく対数サンプルを生成するための効率的な手法である。
論文 参考訳(メタデータ) (2023-06-01T19:04:17Z) - Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z) - A Deep Learning Approach for Ontology Enrichment from Unstructured Text [2.932750332087746]
既存のWeb上の攻撃、コントロール、アドバイザリの情報脆弱性は、セキュリティ分析を表現し、実行する機会を提供する。
自然言語処理とMLモデルに基づくオントロジーエンリッチメントアルゴリズムは、単語、フレーズ、文における概念の文脈的抽出に問題がある。
大規模なDBデータセットと2.8GBのウィキペディアコーパスとUniversal Sentenceでトレーニングされた双方向LSTMは、ISOベースの情報セキュリティを強化するためにデプロイされる。
論文 参考訳(メタデータ) (2021-12-16T01:32:21Z) - MOST: A Multi-Oriented Scene Text Detector with Localization Refinement [67.35280008722255]
シーンテキスト検出のための新しいアルゴリズムを提案し、テキストローカリゼーションの品質を大幅に向上させる一連の戦略を提案する。
具体的には,テキスト・フィーチャー・アライメント・モジュール (TFAM) を提案し,特徴の受容領域を動的に調整する。
信頼できないものを排除するために、位置認識非最大抑制(PA-NMS)モジュールを考案する。
論文 参考訳(メタデータ) (2021-04-02T14:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。