論文の概要: Understanding and Mitigating the Threat of Vec2Text to Dense Retrieval Systems
- arxiv url: http://arxiv.org/abs/2402.12784v2
- Date: Wed, 24 Jul 2024 23:00:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 19:26:49.286034
- Title: Understanding and Mitigating the Threat of Vec2Text to Dense Retrieval Systems
- Title(参考訳): Vec2TextのDense Retrievalシステムに対する脅威の理解と軽減
- Authors: Shengyao Zhuang, Bevan Koopman, Xiaoran Chu, Guido Zuccon,
- Abstract要約: 本稿では,Vec2Textによるテキスト復元に影響を及ぼすであろう埋め込みモデルに関連する要因について検討する。
本稿では,回復可能性リスクを軽減しつつ,均等なランク付けを保証できる簡易な埋め込み変換修正法を提案する。
- 参考スコア(独自算出の注目度): 28.175920880194223
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The emergence of Vec2Text -- a method for text embedding inversion -- has raised serious privacy concerns for dense retrieval systems which use text embeddings, such as those offered by OpenAI and Cohere. This threat comes from the ability for a malicious attacker with access to embeddings to reconstruct the original text. In this paper, we investigate various factors related to embedding models that may impact text recoverability via Vec2Text. We explore factors such as distance metrics, pooling functions, bottleneck pre-training, training with noise addition, embedding quantization, and embedding dimensions, which were not considered in the original Vec2Text paper. Through a comprehensive analysis of these factors, our objective is to gain a deeper understanding of the key elements that affect the trade-offs between the text recoverability and retrieval effectiveness of dense retrieval systems, offering insights for practitioners designing privacy-aware dense retrieval systems. We also propose a simple embedding transformation fix that guarantees equal ranking effectiveness while mitigating the recoverability risk. Overall, this study reveals that Vec2Text could pose a threat to current dense retrieval systems, but there are some effective methods to patch such systems.
- Abstract(参考訳): テキスト埋め込みのインバージョン方法であるVec2Textの出現は、OpenAIやCohereが提供するようなテキスト埋め込みを使用する高密度検索システムに対して、深刻なプライバシー上の懸念を提起している。
この脅威は、悪意のある攻撃者が埋め込みにアクセスして元のテキストを再構築する能力に起因している。
本稿では,Vec2Textによるテキスト復元に影響を及ぼすであろう埋め込みモデルに関連する諸要因について検討する。
本稿では,従来のVec2Text論文では考慮されていなかった距離測定,プール機能,ボトルネック事前学習,ノイズ付加によるトレーニング,量子化の埋め込み,埋め込み次元などの要因について検討する。
これらの要因の包括的分析を通じて,本研究の目的は,高密度検索システムのテキスト復元可能性と検索効率のトレードオフに影響を与える重要な要素を深く理解することであり,プライバシーに配慮した高密度検索システムを設計する実践者に対して洞察を提供することである。
また,リカバリ可能性のリスクを軽減しつつ,同等のランク付けを保証できる簡易な埋め込み変換修正を提案する。
全体としては、Vec2Textは現在の高密度検索システムに脅威をもたらす可能性があるが、そのようなシステムにパッチを当てる効果的な方法がいくつかある。
関連論文リスト
- CTINEXUS: Leveraging Optimized LLM In-Context Learning for Constructing Cybersecurity Knowledge Graphs Under Data Scarcity [49.657358248788945]
サイバー脅威インテリジェンス(CTI)レポートのテキスト記述は、サイバー脅威に関する豊富な知識源である。
現在のCTI抽出法は柔軟性と一般化性に欠けており、しばしば不正確で不完全な知識抽出をもたらす。
CTINexusは,大規模言語モデルのテキスト内学習(ICL)を最適化した新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-28T14:18:32Z) - Does Vec2Text Pose a New Corpus Poisoning Threat? [30.78016941725723]
Vec2Text – テキスト埋め込みインバージョンのためのメソッド – は、高密度検索システムに対する深刻なプライバシー上の懸念を提起している。
本稿では、Vec2Textを新たに検討し、コーパス中毒に対する脅威の程度について検討する。
特定の条件下では、Vec2Textによるコーパス中毒は、密集した検索システムの完全性とユーザエクスペリエンスに深刻な脅威をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-10-09T07:23:02Z) - Con-ReCall: Detecting Pre-training Data in LLMs via Contrastive Decoding [118.75567341513897]
既存のメソッドは通常、ターゲットテキストを分離して分析するか、非メンバーコンテキストでのみ分析する。
Con-ReCallは、メンバと非メンバのコンテキストによって誘導される非対称な分布シフトを利用する新しいアプローチである。
論文 参考訳(メタデータ) (2024-09-05T09:10:38Z) - Adversarial Text Rewriting for Text-aware Recommender Systems [21.73809272703814]
アイテム記述への依存は、eコマースプラットフォーム上での敵の売り手による操作に対して、レコメンデーターシステムに脆弱性をもたらすと論じる。
本稿では,テキスト認識レコメンデータシステムに対する新たなテキスト書き換えフレームワークを提案する。
本研究は,人的評価者から現実的と認識されつつも,販売者が不当に商品を上乗せするために書き直し攻撃を活用できることを実証する。
論文 参考訳(メタデータ) (2024-08-01T06:14:42Z) - QAEA-DR: A Unified Text Augmentation Framework for Dense Retrieval [12.225881591629815]
厳密な検索では、長いテキストを密度の高いベクトルに埋め込むと、情報が失われ、クエリとテキストのマッチングが不正確になる。
近年の研究では,文の埋め込みモデルや検索プロセスの改善を中心に研究が進められている。
本稿では,高密度検索のための新しいテキスト拡張フレームワークを導入し,生文書を高密度テキスト形式に変換する。
論文 参考訳(メタデータ) (2024-07-29T17:39:08Z) - Information Leakage from Embedding in Large Language Models [5.475800773759642]
本研究では,入力再構成攻撃によるプライバシー侵害の可能性を検討することを目的とする。
まず,モデルの隠れ状態からオリジナルテキストを再構築する2つの基本手法を提案する。
次に、トランスフォーマーをベースとしたEmbed Parrotを提案し、深層への埋め込みから入力を再構築する。
論文 参考訳(メタデータ) (2024-05-20T09:52:31Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z) - Improving the Robustness of Summarization Systems with Dual Augmentation [68.53139002203118]
頑健な要約システムは、入力中の特定の単語の選択やノイズに関わらず、文書のギストをキャプチャできるべきである。
まず,単語レベルの同義語置換や雑音を含む摂動に対する要約モデルの頑健性について検討する。
SummAttackerを提案する。これは言語モデルに基づく対数サンプルを生成するための効率的な手法である。
論文 参考訳(メタデータ) (2023-06-01T19:04:17Z) - Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z) - A Deep Learning Approach for Ontology Enrichment from Unstructured Text [2.932750332087746]
既存のWeb上の攻撃、コントロール、アドバイザリの情報脆弱性は、セキュリティ分析を表現し、実行する機会を提供する。
自然言語処理とMLモデルに基づくオントロジーエンリッチメントアルゴリズムは、単語、フレーズ、文における概念の文脈的抽出に問題がある。
大規模なDBデータセットと2.8GBのウィキペディアコーパスとUniversal Sentenceでトレーニングされた双方向LSTMは、ISOベースの情報セキュリティを強化するためにデプロイされる。
論文 参考訳(メタデータ) (2021-12-16T01:32:21Z) - MOST: A Multi-Oriented Scene Text Detector with Localization Refinement [67.35280008722255]
シーンテキスト検出のための新しいアルゴリズムを提案し、テキストローカリゼーションの品質を大幅に向上させる一連の戦略を提案する。
具体的には,テキスト・フィーチャー・アライメント・モジュール (TFAM) を提案し,特徴の受容領域を動的に調整する。
信頼できないものを排除するために、位置認識非最大抑制(PA-NMS)モジュールを考案する。
論文 参考訳(メタデータ) (2021-04-02T14:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。