論文の概要: GASLITEing the Retrieval: Exploring Vulnerabilities in Dense Embedding-based Search
- arxiv url: http://arxiv.org/abs/2412.20953v1
- Date: Mon, 30 Dec 2024 13:49:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:03:43.509161
- Title: GASLITEing the Retrieval: Exploring Vulnerabilities in Dense Embedding-based Search
- Title(参考訳): GASLITEING the Retrieval: Exploring Vulnerabilities in Dense Embedding-based Search
- Authors: Matan Ben-Tov, Mahmood Sharif,
- Abstract要約: 埋め込みベースのテキスト検索x2013$retrieval of relevant passages from corpora via deep encodings$corporax2013$has emerged as a powerful method-of-the-art search results and popular the use of Augmented Retrieval Generation (RAG)
- 参考スコア(独自算出の注目度): 2.30419421321987
- License:
- Abstract: Dense embedding-based text retrieval$\unicode{x2013}$retrieval of relevant passages from corpora via deep learning encodings$\unicode{x2013}$has emerged as a powerful method attaining state-of-the-art search results and popularizing the use of Retrieval Augmented Generation (RAG). Still, like other search methods, embedding-based retrieval may be susceptible to search-engine optimization (SEO) attacks, where adversaries promote malicious content by introducing adversarial passages to corpora. To faithfully assess and gain insights into the susceptibility of such systems to SEO, this work proposes the GASLITE attack, a mathematically principled gradient-based search method for generating adversarial passages without relying on the corpus content or modifying the model. Notably, GASLITE's passages (1) carry adversary-chosen information while (2) achieving high retrieval ranking for a selected query distribution when inserted to corpora. We use GASLITE to extensively evaluate retrievers' robustness, testing nine advanced models under varied threat models, while focusing on realistic adversaries targeting queries on a specific concept (e.g., a public figure). We found GASLITE consistently outperformed baselines by $\geq$140% success rate, in all settings. Particularly, adversaries using GASLITE require minimal effort to manipulate search results$\unicode{x2013}$by injecting a negligible amount of adversarial passages ($\leq$0.0001% of the corpus), they could make them visible in the top-10 results for 61-100% of unseen concept-specific queries against most evaluated models. Inspecting variance in retrievers' robustness, we identify key factors that may contribute to models' susceptibility to SEO, including specific properties in the embedding space's geometry.
- Abstract(参考訳): Dense embedding-based text search$\unicode{x2013}$retrieval of relevant passages from corpora via Deep Learning encodings$\unicode{x2013}$hasは、最先端の検索結果を得る強力な方法として出現し、Retrieval Augmented Generation (RAG) の利用を普及させた。
それでも、他の検索方法と同様に、埋め込みベースの検索は、検索エンジン最適化(SEO)攻撃の影響を受ける可能性がある。
本研究は, コーパスの内容に依存したり, モデルを変更したりすることなく, 逆行路を生成する数学的に原理化された勾配探索法であるGASLITE攻撃を提案する。
特に、GASLITEの通路(1)は、コーパスに挿入された際に、選択されたクエリ分布の高い検索ランクを達成しつつ、逆長線情報を運ぶ。
我々は、GASLITEを用いて、検索者の堅牢性を広範囲に評価し、異なる脅威モデルの下で9つの高度なモデルをテストし、特定の概念(例えば、パブリックフィギュア)でクエリをターゲットとする現実的な敵に焦点を合わせた。
GASLITEは、すべての設定で、$\geq$140%の成功率で、一貫してベースラインを上回りました。
特に、GASLITEを使用する敵は、検索結果を操作するために最小限の労力を要します$\unicode{x2013}$injecting a negligible amount of adversarial passages ($\leq$0.0001% of the corpus)。
検索者の頑健さのばらつきを検査し、埋め込み空間の幾何学における特定の性質を含むSEOに対するモデルの感受性に寄与する重要な因子を同定する。
関連論文リスト
- Document Screenshot Retrievers are Vulnerable to Pixel Poisoning Attacks [72.4498910775871]
ヴィジュアル言語モデル(VLM)ベースのレトリバーは、ベクターとして埋め込まれた文書のスクリーンショットを活用して、効率的な検索を可能にし、従来のテキストのみの手法よりも単純化されたパイプラインを提供する。
本研究では,VLMをベースとしたレトリバーを危険にさらすために,3つのピクセル中毒攻撃手法を提案する。
論文 参考訳(メタデータ) (2025-01-28T12:40:37Z) - TrustRAG: Enhancing Robustness and Trustworthiness in RAG [31.231916859341865]
TrustRAGは、世代ごとに取得される前に、妥協されたコンテンツと無関係なコンテンツを体系的にフィルタリングするフレームワークである。
TrustRAGは、既存のアプローチと比較して、検索精度、効率、攻撃抵抗を大幅に改善している。
論文 参考訳(メタデータ) (2025-01-01T15:57:34Z) - Corpus Poisoning via Approximate Greedy Gradient Descent [48.5847914481222]
本稿では,HotFlip法をベースとした高密度検索システムに対する新たな攻撃手法として,近似グレディ・グラディエント・Descentを提案する。
提案手法は,複数のデータセットと複数のレトリバーを用いて高い攻撃成功率を達成し,未知のクエリや新しいドメインに一般化可能であることを示す。
論文 参考訳(メタデータ) (2024-06-07T17:02:35Z) - Corrective Retrieval Augmented Generation [36.04062963574603]
Retrieval-augmented Generation (RAG) は、検索された文書の関連性に大きく依存しており、検索が失敗した場合のモデルがどのように振る舞うかについての懸念を提起する。
生成の堅牢性を改善するために,CRAG(Corrective Retrieval Augmented Generation)を提案する。
CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。
論文 参考訳(メタデータ) (2024-01-29T04:36:39Z) - Learning to Rank in Generative Retrieval [62.91492903161522]
生成的検索は、検索対象として関連する通路の識別子文字列を生成することを目的としている。
我々はLTRGRと呼ばれる生成検索のための学習 torankフレームワークを提案する。
このフレームワークは、現在の生成的検索システムを強化するために、追加の学習からランクまでのトレーニングフェーズのみを必要とする。
論文 参考訳(メタデータ) (2023-06-27T05:48:14Z) - How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。
我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。
生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文 参考訳(メタデータ) (2023-05-19T17:33:38Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - CLIP the Gap: A Single Domain Generalization Approach for Object
Detection [60.20931827772482]
単一ドメインの一般化(Single Domain Generalization)は、単一のソースドメイン上でモデルをトレーニングすることで、目に見えないターゲットドメインに一般化する問題に取り組む。
本稿では、事前学習された視覚言語モデルを用いて、テキストプロンプトを介して意味領域の概念を導入することを提案する。
本手法は,検出器のバックボーンから抽出した特徴に作用する意味的拡張戦略と,テキストに基づく分類損失によって実現される。
論文 参考訳(メタデータ) (2023-01-13T12:01:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。