論文の概要: Dynamics of Adversarial Attacks on Large Language Model-Based Search Engines
- arxiv url: http://arxiv.org/abs/2501.00745v1
- Date: Wed, 01 Jan 2025 06:23:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:17:10.989746
- Title: Dynamics of Adversarial Attacks on Large Language Model-Based Search Engines
- Title(参考訳): 大規模言語モデルに基づく検索エンジンにおける敵攻撃のダイナミクス
- Authors: Xiyang Hu,
- Abstract要約: 検索エンジンにおけるランキング操作攻撃のダイナミクスについて検討する。
システムダイナミクスの転換点を同定し、プレイヤーが前方を向いているとき、協調が維持される可能性がより高いことを示す。
私たちの研究は、彼らの脆弱性を理解し緩和するための理論的基盤と実践的な洞察を提供します。
- 参考スコア(独自算出の注目度): 7.260315265550391
- License:
- Abstract: The increasing integration of Large Language Model (LLM) based search engines has transformed the landscape of information retrieval. However, these systems are vulnerable to adversarial attacks, especially ranking manipulation attacks, where attackers craft webpage content to manipulate the LLM's ranking and promote specific content, gaining an unfair advantage over competitors. In this paper, we study the dynamics of ranking manipulation attacks. We frame this problem as an Infinitely Repeated Prisoners' Dilemma, where multiple players strategically decide whether to cooperate or attack. We analyze the conditions under which cooperation can be sustained, identifying key factors such as attack costs, discount rates, attack success rates, and trigger strategies that influence player behavior. We identify tipping points in the system dynamics, demonstrating that cooperation is more likely to be sustained when players are forward-looking. However, from a defense perspective, we find that simply reducing attack success probabilities can, paradoxically, incentivize attacks under certain conditions. Furthermore, defensive measures to cap the upper bound of attack success rates may prove futile in some scenarios. These insights highlight the complexity of securing LLM-based systems. Our work provides a theoretical foundation and practical insights for understanding and mitigating their vulnerabilities, while emphasizing the importance of adaptive security strategies and thoughtful ecosystem design.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースの検索エンジンの統合が進み、情報検索の展望が変化した。
しかし、これらのシステムは敵対的な攻撃、特にランキング操作攻撃に対して脆弱であり、攻撃者はウェブページのコンテンツを制作してLLMのランキングを操作し、特定のコンテンツを宣伝し、競合相手に対して不公平な優位性を得る。
本稿では,ランキング操作攻撃のダイナミクスについて検討する。
我々はこの問題を、複数のプレイヤーが協力するか攻撃するかを戦略的に決定する、無限に繰り返す囚人のジレンマとみなす。
我々は,攻撃コスト,割引率,攻撃成功率などの重要な要因を特定し,プレイヤーの行動に影響を与える戦略を立案し,協調を維持できる条件を分析した。
システムダイナミクスの転換点を同定し、プレイヤーが前方を向いているとき、協調が維持される可能性がより高いことを示す。
しかし、防衛の観点からは、単に攻撃成功確率を減らすだけで、パラドックス的に特定の条件下で攻撃を動機付けることができることが分かる。
さらに、攻撃の成功率の上限を抑えるための防御策は、いくつかのシナリオで無駄になる可能性がある。
これらの洞察は、LLMベースのシステムのセキュリティの複雑さを浮き彫りにする。
私たちの研究は、アダプティブセキュリティ戦略と思慮深いエコシステム設計の重要性を強調しながら、その脆弱性を理解し緩和するための理論的基盤と実践的な洞察を提供する。
関連論文リスト
- Non-Cooperative Backdoor Attacks in Federated Learning: A New Threat Landscape [7.00762739959285]
プライバシ保護モデルトレーニングのためのフェデレートラーニング(FL)は、バックドア攻撃の影響を受けやすいままである。
本研究は,発展途上のFL景観におけるバックドア攻撃に対する堅牢な防御の必要性を強調した。
論文 参考訳(メタデータ) (2024-07-05T22:03:13Z) - A Novel Approach to Guard from Adversarial Attacks using Stable Diffusion [0.0]
我々の提案は、AI Guardianフレームワークに対する別のアプローチを提案する。
トレーニングプロセスに敵対的な例を含める代わりに、AIシステムをトレーニングせずに行うことを提案する。
これは、より広い範囲の攻撃に対して本質的に回復力のあるシステムを構築することを目的としています。
論文 参考訳(メタデータ) (2024-05-03T04:08:15Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - On the Difficulty of Defending Contrastive Learning against Backdoor
Attacks [58.824074124014224]
バックドア攻撃が、特有のメカニズムによってどのように動作するかを示す。
本研究は, 対照的なバックドア攻撃の特異性に合わせて, 防御の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2023-12-14T15:54:52Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Ares: A System-Oriented Wargame Framework for Adversarial ML [3.197282271064602]
Aresは、現実的なウォーゲームのような環境で、研究者が攻撃や防御を探索できる敵MLの評価フレームワークである。
アレスは、攻撃者とディフェンダーの間の対立を、反対の目的を持つ強化学習環境における2つのエージェントとして表している。
これにより、障害発生までの時間や複雑な戦略の評価など、システムレベルの評価指標が導入される。
論文 参考訳(メタデータ) (2022-10-24T04:55:18Z) - A Tale of HodgeRank and Spectral Method: Target Attack Against Rank
Aggregation Is the Fixed Point of Adversarial Game [153.74942025516853]
ランクアグリゲーション手法の本質的な脆弱性は文献ではよく研究されていない。
本稿では,ペアデータの変更による集計結果の指定を希望する目的のある敵に焦点をあてる。
提案した標的攻撃戦略の有効性は,一連の玩具シミュレーションと実世界のデータ実験によって実証された。
論文 参考訳(メタデータ) (2022-09-13T05:59:02Z) - Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the
Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。
我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。
攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文 参考訳(メタデータ) (2021-11-23T23:42:16Z) - Adversarial Attack and Defense in Deep Ranking [100.17641539999055]
本稿では,敵対的摂動によって選抜された候補者のランクを引き上げたり下げたりできる,ディープランキングシステムに対する2つの攻撃を提案する。
逆に、全ての攻撃に対するランキングモデルロバスト性を改善するために、反崩壊三重項防御法が提案されている。
MNIST, Fashion-MNIST, CUB200-2011, CARS196およびStanford Online Productsデータセットを用いて, 敵のランク付け攻撃と防御を評価した。
論文 参考訳(メタデータ) (2021-06-07T13:41:45Z) - Adversarial Attack Attribution: Discovering Attributable Signals in
Adversarial ML Attacks [0.7883722807601676]
自動運転車やML-as-a-serviceのような生産システムでさえ、逆の入力の影響を受けやすい。
摂動入力は、攻撃を生成するために使われるメソッドに起因できるだろうか?
敵対攻撃属性の概念を導入し、敵対攻撃における攻撃可能信号の発見可能性を調べるための単純な教師付き学習実験フレームワークを作成する。
論文 参考訳(メタデータ) (2021-01-08T08:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。