Fugu-MT 論文翻訳(概要): Understanding and Mitigating the Threat of Vec2Text to Dense Retrieval Systems

論文の概要: Understanding and Mitigating the Threat of Vec2Text to Dense Retrieval Systems

arxiv url: http://arxiv.org/abs/2402.12784v1
Date: Tue, 20 Feb 2024 07:49:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 16:34:49.654731
Title: Understanding and Mitigating the Threat of Vec2Text to Dense Retrieval Systems
Title（参考訳）: Vec2TextのDense Retrievalシステムに対する脅威の理解と軽減
Authors: Shengyao Zhuang, Bevan Koopman, Xiaoran Chu, Guido Zuccon
Abstract要約: テキスト埋め込みを反転させるテクニックであるVec2Textは、高密度検索システム内で深刻なプライバシー上の懸念を提起している。本稿では,Vec2Textを用いたテキストの復元性に影響を与えるであろう埋め込みモデルの様々な側面について検討する。そこで本研究では,テキスト復元可能性のリスクを軽減しつつ,同等のランク付け効率を確保できる埋め込み変換の修正を提案する。
参考スコア（独自算出の注目度）: 30.78016941725723
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The introduction of Vec2Text, a technique for inverting text embeddings, has raised serious privacy concerns within dense retrieval systems utilizing text embeddings, including those provided by OpenAI and Cohere. This threat comes from the ability for a malicious attacker with access to text embeddings to reconstruct the original text. In this paper, we investigate various aspects of embedding models that could influence the recoverability of text using Vec2Text. Our exploration involves factors such as distance metrics, pooling functions, bottleneck pre-training, training with noise addition, embedding quantization, and embedding dimensions -- aspects not previously addressed in the original Vec2Text paper. Through a thorough analysis of these factors, our aim is to gain a deeper understanding of the critical elements impacting the trade-offs between text recoverability and retrieval effectiveness in dense retrieval systems. This analysis provides valuable insights for practitioners involved in designing privacy-aware dense retrieval systems. Additionally, we propose a straightforward fix for embedding transformation that ensures equal ranking effectiveness while mitigating the risk of text recoverability. Furthermore, we extend the application of Vec2Text to the separate task of corpus poisoning, where, theoretically, Vec2Text presents a more potent threat compared to previous attack methods. Notably, Vec2Text does not require access to the dense retriever's model parameters and can efficiently generate numerous adversarial passages. In summary, this study highlights the potential threat posed by Vec2Text to existing dense retrieval systems, while also presenting effective methods to patch and strengthen such systems against such risks.
Abstract（参考訳）: テキスト埋め込みを反転させるテクニックであるVec2Textの導入は、OpenAIやCohereなどのテキスト埋め込みを利用した密集検索システムにおいて、深刻なプライバシー上の懸念を提起している。この脅威は、悪意のある攻撃者がテキスト埋め込みにアクセスして元のテキストを再構築する能力から生じる。本稿では,Vec2Textを用いてテキストの復元性に影響を与えるであろう埋め込みモデルの様々な側面について検討する。私たちの調査では、距離メトリクス、プーリング関数、ボトルネック事前トレーニング、ノイズの追加によるトレーニング、量子化の埋め込み、埋め込み次元といった要素が関係しています。これらの要因を徹底的に分析することで,検索システムにおけるテキスト復元性と検索効率のトレードオフに影響を及ぼす重要な要素をより深く理解することを目的としている。この分析は、プライバシーを意識した高密度検索システムの設計に関わる実践者にとって貴重な洞察を提供する。さらに,テキスト復元のリスクを軽減しつつ,同一のランキング効果を保証する組込み変換の簡易な修正を提案する。さらに、我々は、Vec2Textの適用をコーパス中毒の別のタスクに拡張し、理論上、Vec2Textは従来の攻撃方法よりも強力な脅威を示す。特に、Vec2Textは、高密度レトリバーのモデルパラメータへのアクセスを必要とせず、多数の対向パスを効率的に生成できる。本研究は,既存の高密度検索システムに対するvec2textの潜在的な脅威を浮き彫りにするとともに,そのようなシステムに対してパッチを当て,強化するための効果的な手法を提案する。

関連論文リスト

Benchmarking Knowledge-Extraction Attack and Defense on Retrieval-Augmented Generation [50.87199039334856]
Retrieval-Augmented Generation (RAG) は知識集約型アプリケーションの基礎となっている。近年の研究では、悪意あるクエリによって知識抽出攻撃が機密知識ベースコンテンツを回復できることが示されている。本稿では,RAGシステムに対する知識抽出攻撃のための最初の体系的ベンチマークを紹介する。
論文参考訳（メタデータ） (2026-02-10T01:27:46Z)
Rethinking the Privacy of Text Embeddings: A Reproducibility Study of "Text Embeddings Reveal (Almost) As Much As Text" [0.14061979259370275]
我々はVec2Textフレームワークを再現し、2つの観点から評価する。ドメイン内設定とドメイン外設定の両方で、元のキー結果の再現に成功したのです。入力シーケンス長に対する感度を含むキー制限を識別する。
論文参考訳（メタデータ） (2025-07-10T12:27:03Z)
Exploiting Vulnerabilities in Speech Translation Systems through Targeted Adversarial Attacks [59.87470192277124]
本稿では,非知覚的音声操作による音声翻訳システム構築手法について検討する。本研究では,(1)ソース音声への摂動注入,(2)ターゲット翻訳を誘導する対向音楽の生成という2つの革新的なアプローチを提案する。我々の実験では、注意深く作られた音声摂動は、ターゲットとなる有害な出力を生成するために翻訳モデルを誤解させる可能性があるが、敵対的な音楽はこの目標をより隠蔽的に達成する。この研究の意味は、直ちにセキュリティ上の懸念を越えて、ニューラル音声処理システムの解釈可能性と堅牢性に光を当てることである。
論文参考訳（メタデータ） (2025-03-02T16:38:16Z)
Dual-branch Graph Feature Learning for NLOS Imaging [51.31554007495926]
非視線イメージング(NLOS)は、直接見えない閉塞されたシーンを明らかにする機能を提供する。 xnet法は、アルベド情報回復に特化したアルベド中心の再構築ブランチと、幾何学的構造を抽出する深さ中心の再構築ブランチを統合する。提案手法は,合成データと実データの間で,既存の手法の中で最も高い性能を実現する。
論文参考訳（メタデータ） (2025-02-27T01:49:00Z)
Illusions of Relevance: Using Content Injection Attacks to Deceive Retrievers, Rerankers, and LLM Judges [52.96987928118327]
検索,リランカー,大型言語モデル(LLM)の埋め込みモデルは,コンテンツインジェクション攻撃に対して脆弱であることがわかった。主な脅威は,(1) 意味不明な内容や有害な内容の挿入,(2) 関連性を高めるために,問合せ全体あるいはキークエリ用語の挿入,の2つである。本研究は, 注射内容の配置や関連物質と非関連物質とのバランスなど, 攻撃の成功に影響を与える要因を系統的に検討した。
論文参考訳（メタデータ） (2025-01-30T18:02:15Z)
Towards More Robust Retrieval-Augmented Generation: Evaluating RAG Under Adversarial Poisoning Attacks [45.07581174558107]
Retrieval-Augmented Generation (RAG) システムは幻覚を緩和するための有望な解決策として登場した。 RAGシステムは、検索データベースに注入された悪意のあるパスが、モデルを誤誘導し、事実的に誤ったアウトプットを発生させるような、敵の毒殺攻撃に弱い。本稿では,RAGシステムの検索と生成の両要素について検討し,攻撃に対するロバスト性を高める方法について考察する。
論文参考訳（メタデータ） (2024-12-21T17:31:52Z)
CTINEXUS: Leveraging Optimized LLM In-Context Learning for Constructing Cybersecurity Knowledge Graphs Under Data Scarcity [49.657358248788945]
サイバー脅威インテリジェンス(CTI)レポートのテキスト記述は、サイバー脅威に関する豊富な知識源である。現在のCTI抽出法は柔軟性と一般化性に欠けており、しばしば不正確で不完全な知識抽出をもたらす。 CTINexusは,大規模言語モデルのテキスト内学習(ICL)を最適化した新しいフレームワークである。
論文参考訳（メタデータ） (2024-10-28T14:18:32Z)
Does Vec2Text Pose a New Corpus Poisoning Threat? [30.78016941725723]
Vec2Text – テキスト埋め込みインバージョンのためのメソッド – は、高密度検索システムに対する深刻なプライバシー上の懸念を提起している。本稿では、Vec2Textを新たに検討し、コーパス中毒に対する脅威の程度について検討する。特定の条件下では、Vec2Textによるコーパス中毒は、密集した検索システムの完全性とユーザエクスペリエンスに深刻な脅威をもたらす可能性があることを示す。
論文参考訳（メタデータ） (2024-10-09T07:23:02Z)
Con-ReCall: Detecting Pre-training Data in LLMs via Contrastive Decoding [118.75567341513897]
既存のメソッドは通常、ターゲットテキストを分離して分析するか、非メンバーコンテキストでのみ分析する。 Con-ReCallは、メンバと非メンバのコンテキストによって誘導される非対称な分布シフトを利用する新しいアプローチである。
論文参考訳（メタデータ） (2024-09-05T09:10:38Z)
Adversarial Text Rewriting for Text-aware Recommender Systems [21.73809272703814]
アイテム記述への依存は、eコマースプラットフォーム上での敵の売り手による操作に対して、レコメンデーターシステムに脆弱性をもたらすと論じる。本稿では,テキスト認識レコメンデータシステムに対する新たなテキスト書き換えフレームワークを提案する。本研究は,人的評価者から現実的と認識されつつも,販売者が不当に商品を上乗せするために書き直し攻撃を活用できることを実証する。
論文参考訳（メタデータ） (2024-08-01T06:14:42Z)
QAEA-DR: A Unified Text Augmentation Framework for Dense Retrieval [12.225881591629815]
厳密な検索では、長いテキストを密度の高いベクトルに埋め込むと、情報が失われ、クエリとテキストのマッチングが不正確になる。近年の研究では,文の埋め込みモデルや検索プロセスの改善を中心に研究が進められている。本稿では,高密度検索のための新しいテキスト拡張フレームワークを導入し,生文書を高密度テキスト形式に変換する。
論文参考訳（メタデータ） (2024-07-29T17:39:08Z)
Information Leakage from Embedding in Large Language Models [5.475800773759642]
本研究では,入力再構成攻撃によるプライバシー侵害の可能性を検討することを目的とする。まず,モデルの隠れ状態からオリジナルテキストを再構築する2つの基本手法を提案する。次に、トランスフォーマーをベースとしたEmbed Parrotを提案し、深層への埋め込みから入力を再構築する。
論文参考訳（メタデータ） (2024-05-20T09:52:31Z)
NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。 NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文参考訳（メタデータ） (2023-06-12T06:06:05Z)
Improving the Robustness of Summarization Systems with Dual Augmentation [68.53139002203118]
頑健な要約システムは、入力中の特定の単語の選択やノイズに関わらず、文書のギストをキャプチャできるべきである。まず,単語レベルの同義語置換や雑音を含む摂動に対する要約モデルの頑健性について検討する。 SummAttackerを提案する。これは言語モデルに基づく対数サンプルを生成するための効率的な手法である。
論文参考訳（メタデータ） (2023-06-01T19:04:17Z)
Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。 CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。 MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文参考訳（メタデータ） (2023-04-06T22:16:53Z)
A Deep Learning Approach for Ontology Enrichment from Unstructured Text [2.932750332087746]
既存のWeb上の攻撃、コントロール、アドバイザリの情報脆弱性は、セキュリティ分析を表現し、実行する機会を提供する。自然言語処理とMLモデルに基づくオントロジーエンリッチメントアルゴリズムは、単語、フレーズ、文における概念の文脈的抽出に問題がある。大規模なDBデータセットと2.8GBのウィキペディアコーパスとUniversal Sentenceでトレーニングされた双方向LSTMは、ISOベースの情報セキュリティを強化するためにデプロイされる。
論文参考訳（メタデータ） (2021-12-16T01:32:21Z)
MOST: A Multi-Oriented Scene Text Detector with Localization Refinement [67.35280008722255]
シーンテキスト検出のための新しいアルゴリズムを提案し、テキストローカリゼーションの品質を大幅に向上させる一連の戦略を提案する。具体的には,テキスト・フィーチャー・アライメント・モジュール (TFAM) を提案し,特徴の受容領域を動的に調整する。信頼できないものを排除するために、位置認識非最大抑制(PA-NMS)モジュールを考案する。
論文参考訳（メタデータ） (2021-04-02T14:34:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。