論文の概要: Adversarial Search Engine Optimization for Large Language Models
- arxiv url: http://arxiv.org/abs/2406.18382v2
- Date: Tue, 2 Jul 2024 08:56:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 12:13:48.852495
- Title: Adversarial Search Engine Optimization for Large Language Models
- Title(参考訳): 大規模言語モデルに対する逆探索エンジン最適化
- Authors: Fredrik Nestaas, Edoardo Debenedetti, Florian Tramèr,
- Abstract要約: 大規模言語モデル(LLM)は、競合するサードパーティのコンテンツからモデルを選択するアプリケーションで、ますます使われている。
我々は、LLMの選択を操作して攻撃者を支持する新しいタイプの攻撃であるPreference Manipulation Attacksを紹介する。
- 参考スコア(独自算出の注目度): 25.320947071607744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly used in applications where the model selects from competing third-party content, such as in LLM-powered search engines or chatbot plugins. In this paper, we introduce Preference Manipulation Attacks, a new class of attacks that manipulate an LLM's selections to favor the attacker. We demonstrate that carefully crafted website content or plugin documentations can trick an LLM to promote the attacker products and discredit competitors, thereby increasing user traffic and monetization. We show this leads to a prisoner's dilemma, where all parties are incentivized to launch attacks, but the collective effect degrades the LLM's outputs for everyone. We demonstrate our attacks on production LLM search engines (Bing and Perplexity) and plugin APIs (for GPT-4 and Claude). As LLMs are increasingly used to rank third-party content, we expect Preference Manipulation Attacks to emerge as a significant threat.
- Abstract(参考訳): 大規模言語モデル(LLM)は、LLMベースの検索エンジンやチャットボットプラグインなど、競合するサードパーティのコンテンツからモデルを選択するアプリケーションで、ますます使われている。
本稿では、LLMの選択を操作して攻撃者を支持する新しいタイプの攻撃であるPreference Manipulation Attacksを紹介する。
注意深いWebサイトコンテンツやプラグインのドキュメンテーションは、LLMを騙して攻撃的製品を宣伝し、競合を軽視し、ユーザトラフィックと収益化を増大させることができることを実証する。
これは囚人のジレンマにつながり、全ての当事者が攻撃を開始する動機付けを受けるが、集団的効果はLLMの出力を低下させる。
実運用LLM検索エンジン(BingとPerplexity)とプラグインAPI(GPT-4とClaude)に対する攻撃を実演する。
LLMは、サードパーティのコンテンツのランク付けにますます使われているので、Preference Manipulation Attacksが重大な脅威になることを期待している。
関連論文リスト
- MaPPing Your Model: Assessing the Impact of Adversarial Attacks on LLM-based Programming Assistants [14.947665219536708]
本稿では,攻撃者がプログラムタスクのプロンプトに少量のテキストを付加するMalicious Programming Prompt(MaPP)攻撃を紹介する。
我々の迅速な戦略は、LSMが他の方法で正しいコードを書き続けながら脆弱性を追加する可能性があることを示しています。
論文 参考訳(メタデータ) (2024-07-12T22:30:35Z) - Ranking Manipulation for Conversational Search Engines [7.958276719131612]
本稿では,対話型検索エンジンが参照するソースのランク付け順序に対するインジェクションのインジェクションの影響について検討する。
低品位製品を確実に促進する攻撃木を用いた脱獄技術を提案する。
これらの攻撃は、Perplexity.aiのような最先端の会話検索エンジンに効果的に転送される。
論文 参考訳(メタデータ) (2024-06-05T19:14:21Z) - Manipulating Large Language Models to Increase Product Visibility [27.494854085799076]
大規模言語モデル(LLM)は、ユーザクエリに適した自然言語応答を提供するために、検索エンジンに統合されつつある。
製品の可視性を高めるため,LCMからのレコメンデーションを操作できるかどうかを検討する。
論文 参考訳(メタデータ) (2024-04-11T17:57:32Z) - Sandwich attack: Multi-language Mixture Adaptive Attack on LLMs [9.254047358707014]
我々はemphSandwich攻撃と呼ばれる新しいブラックボックス攻撃ベクトル、多言語混合攻撃を導入する。
GoogleのBard, Gemini Pro, LLaMA-2-70-B-Chat, GPT-3.5-Turbo, GPT-4, Claude-3-OPUS の5つの異なるモデルを用いた実験により, この攻撃ベクトルは敵が有害な応答を生成するために使用できることを示した。
論文 参考訳(メタデータ) (2024-04-09T18:29:42Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - PAL: Proxy-Guided Black-Box Attack on Large Language Models [55.57987172146731]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を示している。
PAL(Proxy-Guided Attack on LLMs)は, ブラックボックスクエリのみの設定で, LLMに対する最初の最適化ベースの攻撃である。
GPT-3.5-Turboの攻撃成功率は84%,Llama-2-7Bの攻撃成功率は48%であった。
論文 参考訳(メタデータ) (2024-02-15T02:54:49Z) - The Philosopher's Stone: Trojaning Plugins of Large Language Models [22.67696768099352]
オープンソースのLarge Language Models (LLM) は、プロプライエタリなLLMに匹敵するパフォーマンスのため、最近人気を集めている。
ドメイン特化タスクを効率的にこなすために、低ランクアダプタを用いて高価なアクセラレーターを使わずにオープンソースのLLMを洗練することができる。
LLMを制御するために低ランクアダプタを利用できるかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-12-01T06:36:17Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z) - Exploiting Programmatic Behavior of LLMs: Dual-Use Through Standard
Security Attacks [67.86285142381644]
命令追従型大規模言語モデルの最近の進歩は、悪意のある目的のために二重使用リスクを増幅する。
命令追従機能がコンピュータセキュリティの標準的な攻撃を可能にするため、デュアルユースを防ぐのは難しい。
本研究では,LLMがヘイトスピーチや詐欺などの悪意のあるコンテンツをターゲットにすることができることを示す。
論文 参考訳(メタデータ) (2023-02-11T15:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。