論文の概要: Exploiting Instruction-Following Retrievers for Malicious Information Retrieval
- arxiv url: http://arxiv.org/abs/2503.08644v1
- Date: Tue, 11 Mar 2025 17:36:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:45:56.276724
- Title: Exploiting Instruction-Following Retrievers for Malicious Information Retrieval
- Title(参考訳): 不正情報検索のための実行指示追従レトリバー
- Authors: Parishad BehnamGhader, Nicholas Meade, Siva Reddy,
- Abstract要約: 検索者が悪意のあるクエリを満足する能力を実証的に研究する。
悪意のある要求が与えられた場合、ほとんどのレトリバーは(クエリの50%以上において)関連する有害なパスを選択することができる。
Llama3のような安全性に配慮したLLMでさえ、有害な検索パスをコンテキスト内で提供すると、悪意のある要求を満足させることができる。
- 参考スコア(独自算出の注目度): 26.923839264936603
- License:
- Abstract: Instruction-following retrievers have been widely adopted alongside LLMs in real-world applications, but little work has investigated the safety risks surrounding their increasing search capabilities. We empirically study the ability of retrievers to satisfy malicious queries, both when used directly and when used in a retrieval augmented generation-based setup. Concretely, we investigate six leading retrievers, including NV-Embed and LLM2Vec, and find that given malicious requests, most retrievers can (for >50% of queries) select relevant harmful passages. For example, LLM2Vec correctly selects passages for 61.35% of our malicious queries. We further uncover an emerging risk with instruction-following retrievers, where highly relevant harmful information can be surfaced by exploiting their instruction-following capabilities. Finally, we show that even safety-aligned LLMs, such as Llama3, can satisfy malicious requests when provided with harmful retrieved passages in-context. In summary, our findings underscore the malicious misuse risks associated with increasing retriever capability.
- Abstract(参考訳): 実世界のアプリケーションでは,LLMと併用してインストラクション追従レトリバーが広く採用されているが,検索能力の増大に伴う安全性リスクについてはほとんど研究されていない。
本研究は,検索生成ベースのセットアップにおいて,直接使用時と使用時の両方において,悪意のあるクエリを満足する能力について実証的に検討する。
具体的には、NV-Embed や LLM2Vec を含む6つの主要なレトリバーを調査し、悪意のある要求が与えられた場合、ほとんどのレトリバーが関連する有害なパスを選択することができる(クエリの50%以上)。
例えば、LLM2Vecは、悪意のあるクエリの61.35%のパスを正しく選択する。
さらに,命令追従能力を活用することで,有害な情報を極めて関連性の高い情報として提示することのできる,命令追従型検索装置の出現リスクを明らかにした。
最後に,Llama3 のような安全性に配慮した LLM であっても,有害な検索パスをコンテキスト内に提供すれば,悪意のある要求を満足させることができることを示す。
以上の結果から,検索能力の増大に伴う悪質な誤用リスクを浮き彫りにした。
関連論文リスト
- Do LLMs Consider Security? An Empirical Study on Responses to Programming Questions [10.69738882390809]
ChatGPTは、開発者にコンテキスト固有の情報をボランティアして、安全なコーディングプラクティスを促進する。
我々は,3つのLLM(Claude 3, GPT-4, Llama 3)が示すセキュリティ意識の程度を評価する。
私たちの調査によると、3つのモデルすべてが、脆弱性を正確に検知し、ユーザに警告するのに苦労しており、データセット全体の検出率は12.6%から40%に過ぎません。
論文 参考訳(メタデータ) (2025-02-20T02:20:06Z) - Illusions of Relevance: Using Content Injection Attacks to Deceive Retrievers, Rerankers, and LLM Judges [52.96987928118327]
検索,リランカー,大型言語モデル(LLM)の埋め込みモデルは,コンテンツインジェクション攻撃に対して脆弱であることがわかった。
主な脅威は,(1) 意味不明な内容や有害な内容の挿入,(2) 関連性を高めるために,問合せ全体あるいはキークエリ用語の挿入,の2つである。
本研究は, 注射内容の配置や関連物質と非関連物質とのバランスなど, 攻撃の成功に影響を与える要因を系統的に検討した。
論文 参考訳(メタデータ) (2025-01-30T18:02:15Z) - Document Screenshot Retrievers are Vulnerable to Pixel Poisoning Attacks [72.4498910775871]
ヴィジュアル言語モデル(VLM)ベースのレトリバーは、ベクターとして埋め込まれた文書のスクリーンショットを活用して、効率的な検索を可能にし、従来のテキストのみの手法よりも単純化されたパイプラインを提供する。
本研究では,VLMをベースとしたレトリバーを危険にさらすために,3つのピクセル中毒攻撃手法を提案する。
論文 参考訳(メタデータ) (2025-01-28T12:40:37Z) - Data Extraction Attacks in Retrieval-Augmented Generation via Backdoors [15.861833242429228]
本稿では,RAG(Retrieval-Augmented Generation)システムの知識データベースを対象としたデータ抽出攻撃について検討する。
この脆弱性を明らかにするために, LLM内にバックドアを作成するために, 微調整期間中に少量の有毒データを注入するバックドアRAGを提案する。
論文 参考訳(メタデータ) (2024-11-03T22:27:40Z) - W-RAG: Weakly Supervised Dense Retrieval in RAG for Open-domain Question Answering [28.79851078451609]
大規模言語モデル(LLM)は、内部(パラメトリック)知識にのみ依存して、事実的な回答を生成するのに苦労することが多い。
この制限に対処するため、Retrieval-Augmented Generation (RAG)システムでは、外部ソースから関連情報を検索することでLLMを強化している。
我々はLLMのランキング機能を活用してW-RAGを提案する。
論文 参考訳(メタデータ) (2024-08-15T22:34:44Z) - Learning to Retrieve Iteratively for In-Context Learning [56.40100968649039]
イテレーティブ検索は、ポリシー最適化によるイテレーティブな意思決定を可能にする、新しいフレームワークである。
テキスト内学習例を構成するための反復型検索器をインスタンス化し,様々な意味解析タスクに適用する。
ステートエンコーディングのためのパラメータを4M追加するだけで、オフザシェルフの高密度レトリバーをステートフル反復レトリバーに変換する。
論文 参考訳(メタデータ) (2024-06-20T21:07:55Z) - Human-Imperceptible Retrieval Poisoning Attacks in LLM-Powered Applications [10.06789804722156]
我々は,攻撃者がRAGプロセス中に悪意のある応答を誘導する,検索中毒と呼ばれるLSMベースのアプリケーションに対する新たな脅威を明らかにした。
我々の予備実験は、攻撃者が88.33%の成功率でLLMを誤解させ、実世界のアプリケーションで66.67%の成功率を達成することを示唆している。
論文 参考訳(メタデータ) (2024-04-26T07:11:18Z) - LLMs Know What They Need: Leveraging a Missing Information Guided Framework to Empower Retrieval-Augmented Generation [6.676337039829463]
ミス情報ガイド検索抽出パラダイム(MIGRES)を提案する。
欠落した情報の識別を利用して、その後の知識検索を操縦するターゲットクエリを生成する。
複数の公開データセットに対して行われた大規模な実験は、提案したMIGRES法の優位性を明らかにする。
論文 参考訳(メタデータ) (2024-04-22T09:56:59Z) - The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented
Generation (RAG) [56.67603627046346]
Retrieval-augmented Generation (RAG)は、プロプライエタリおよびプライベートデータによる言語モデルを容易にする強力な技術である。
本研究では,プライベート検索データベースの漏洩に対するRAGシステムの脆弱性を実証する,新たな攻撃手法による実証的研究を行う。
論文 参考訳(メタデータ) (2024-02-23T18:35:15Z) - Poisoning Retrieval Corpora by Injecting Adversarial Passages [79.14287273842878]
本稿では,悪意のあるユーザが少数の逆行を発生させるような,高密度検索システムに対する新たな攻撃を提案する。
これらの逆行路を大規模な検索コーパスに挿入すると、この攻撃はこれらのシステムを騙すのに非常に効果的であることを示す。
また、教師なしと教師なしの両方の最先端の高密度レトリバーをベンチマークし、比較する。
論文 参考訳(メタデータ) (2023-10-29T21:13:31Z) - Large Language Models are Strong Zero-Shot Retriever [89.16756291653371]
ゼロショットシナリオにおける大規模検索に大規模言語モデル(LLM)を適用するための簡単な手法を提案する。
我々の手法であるRetriever(LameR)は,LLM以外のニューラルモデルに基づいて構築された言語モデルである。
論文 参考訳(メタデータ) (2023-04-27T14:45:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。