論文の概要: Sales Whisperer: A Human-Inconspicuous Attack on LLM Brand Recommendations
- arxiv url: http://arxiv.org/abs/2406.04755v1
- Date: Fri, 7 Jun 2024 08:54:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 14:50:13.621374
- Title: Sales Whisperer: A Human-Inconspicuous Attack on LLM Brand Recommendations
- Title(参考訳): LLMブランドレコメンデーションに対する人道的な攻撃
- Authors: Weiran Lin, Anna Gerchanovsky, Omer Akgul, Lujo Bauer, Matt Fredrikson, Zifan Wang,
- Abstract要約: 大規模言語モデル(LLM)のユーザは、プロンプトを書くのに他人に依存しているかもしれない。
本稿では,ブランドレコメンデーションタスクにおいて,このようなプロンプトを使用するリスクを評価する。
- 参考スコア(独自算出の注目度): 28.49203239329941
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language model (LLM) users might rely on others (e.g., prompting services), to write prompts. However, the risks of trusting prompts written by others remain unstudied. In this paper, we assess the risk of using such prompts on brand recommendation tasks when shopping. First, we found that paraphrasing prompts can result in LLMs mentioning given brands with drastically different probabilities, including a pair of prompts where the probability changes by 100%. Next, we developed an approach that can be used to perturb an original base prompt to increase the likelihood that an LLM mentions a given brand. We designed a human-inconspicuous algorithm that perturbs prompts, which empirically forces LLMs to mention strings related to a brand more often, by absolute improvements up to 78.3%. Our results suggest that our perturbed prompts, 1) are inconspicuous to humans, 2) force LLMs to recommend a target brand more often, and 3) increase the perceived chances of picking targeted brands.
- Abstract(参考訳): 大規模言語モデル(LLM)のユーザは、プロンプトを書くために他のもの(例えば、サービスにプロンプトするなど)に依存する可能性がある。
しかし、他人が書いた信任状を信用するリスクは未検討のままである。
本稿では,ブランドレコメンデーションタスクにおいて,このようなプロンプトを使用するリスクを評価する。
まず、パラフレージングプロンプトは、確率が100%変化する一対のプロンプトを含む、非常に異なる確率を持つブランドに言及するLLMが生じる可能性があることを発見した。
次に、LLMが与えられたブランドに言及する可能性を高めるために、元のベースプロンプトを乱すために使用できるアプローチを開発した。
我々は, LLMがブランド関連文字列に言及する頻度を, 78.3%まで向上させることで, 摂動を誘導する人間の目立たないアルゴリズムを設計した。
私たちの結果は、我々の混乱したプロンプトが示唆される。
1)人間には目立たない。
2 LLM は、目標ブランドをより頻繁に推薦するよう強制し、
3)ターゲットブランドを選択する可能性を高める。
関連論文リスト
- Human-Readable Adversarial Prompts: An Investigation into LLM Vulnerabilities Using Situational Context [49.13497493053742]
LLMの脆弱性に関する以前の研究は、しばしば非感覚的な敵のプロンプトに頼っていた。
このギャップには、より現実的で強力な脅威である、人間が読める敵のプロンプトに焦点を合わせることで対処する。
我々の重要な貢献は、映画スクリプトを利用した状況駆動攻撃で、LLMを騙すのに成功する文脈的関連性があり、人間可読なプロンプトを作成することである。
論文 参考訳(メタデータ) (2024-12-20T21:43:52Z) - Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。
この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。
本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-10T12:42:33Z) - On Targeted Manipulation and Deception when Optimizing LLMs for User Feedback [7.525470776920495]
人間のフィードバックを最大限にするためのトレーニングは、AIの逆インセンティブ構造を生み出します。
操作や騙しといった極端な形式の「フィードバックゲーム」が確実に学習されていることがわかった。
ユーザフィードバックなどゲーム可能なフィードバックソースをRLのターゲットとして使用するリスクを、私たちの結果が強調できることを願っています。
論文 参考訳(メタデータ) (2024-11-04T17:31:02Z) - Why Are My Prompts Leaked? Unraveling Prompt Extraction Threats in Customized Large Language Models [15.764672596793352]
我々は,突発的漏洩のメカニズムを解析し,その機構を即発的記憶と呼び,対応する防御戦略を開発する。
現在のLSMは、GPT-4のような安全アライメントを持つものでさえ、抽出攻撃の迅速化に非常に脆弱であることがわかった。
論文 参考訳(メタデータ) (2024-08-05T12:20:39Z) - Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。
我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。
当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文 参考訳(メタデータ) (2024-07-19T19:47:26Z) - Enhancing the Capability and Robustness of Large Language Models through Reinforcement Learning-Driven Query Refinement [35.50259088854813]
大きな言語モデル(LLM)の、正直で無害で有用な応答を生成する能力は、ユーザープロンプトの品質に大きく依存している。
本研究では,LSMに入力される前にユーザプロンプトを洗練する,転送可能でプラグイン可能なフレームワークを提案する。
この戦略はクエリの品質を改善し、LCMにより誠実で良質で有用なレスポンスを生成する権限を与えます。
論文 参考訳(メタデータ) (2024-07-01T16:55:28Z) - Defending Against Indirect Prompt Injection Attacks With Spotlighting [11.127479817618692]
一般的なアプリケーションでは、複数の入力は1つのテキストストリームにまとめることで処理できる。
間接的なプロンプトインジェクション攻撃は、ユーザコマンドと共に処理されている信頼できないデータに、敵命令を埋め込むことによって、この脆弱性を利用する。
我々は,複数の入力源を識別するLLMの能力を向上させるために,迅速なエンジニアリング技術群であるスポットライティングを紹介した。
論文 参考訳(メタデータ) (2024-03-20T15:26:23Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z) - PromptRobust: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts [76.18347405302728]
本研究は、文字、単語、文、意味といった複数のレベルにわたるプロンプトを標的とした、敵対的なテキスト攻撃を多用する。
相手のプロンプトは、感情分析、自然言語推論、読書理解、機械翻訳、数学の問題解決など様々なタスクに使用される。
以上の結果から,現代の大規模言語モデルでは,敵対的プロンプトに対して頑健ではないことが示唆された。
論文 参考訳(メタデータ) (2023-06-07T15:37:00Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。