Fugu-MT 論文翻訳(概要): LLM Whisperer: An Inconspicuous Attack to Bias LLM Responses

論文の概要: LLM Whisperer: An Inconspicuous Attack to Bias LLM Responses

arxiv url: http://arxiv.org/abs/2406.04755v2
Date: Mon, 16 Sep 2024 01:23:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-18 01:55:54.528856
Title: LLM Whisperer: An Inconspicuous Attack to Bias LLM Responses
Title（参考訳）: LLM Whisperer: Bias LLMの反応に不都合な攻撃
Authors: Weiran Lin, Anna Gerchanovsky, Omer Akgul, Lujo Bauer, Matt Fredrikson, Zifan Wang,
Abstract要約: 命令における微妙なシノニム置換は、LLMが目標概念に言及する可能性(最大78%)を高めることができることを示す。信頼できない関係者からのプロンプトの使用に対する警告の実施を推奨する。
参考スコア（独自算出の注目度）: 28.49203239329941
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Writing effective prompts for large language models (LLM) can be unintuitive and burdensome. In response, services that optimize or suggest prompts have emerged. While such services can reduce user effort, they also introduce a risk: the prompt provider can subtly manipulate prompts to produce heavily biased LLM responses. In this work, we show that subtle synonym replacements in prompts can increase the likelihood (by a difference up to 78%) that LLMs mention a target concept (e.g., a brand, political party, nation). We substantiate our observations through a user study, showing our adversarially perturbed prompts 1) are indistinguishable from unaltered prompts by humans, 2) push LLMs to recommend target concepts more often, and 3) make users more likely to notice target concepts, all without arousing suspicion. The practicality of this attack has the potential to undermine user autonomy. Among other measures, we recommend implementing warnings against using prompts from untrusted parties.
Abstract（参考訳）: 大規模言語モデル(LLM)の効果的なプロンプトを書くのは直感的で負担がかかる。これを受けて、プロンプトの最適化や提案を行うサービスが登場した。プロンプトプロバイダはプロンプトを微妙に操作して、非常に偏りのあるLSM応答を生成することができる。本研究は, LLMが目標概念(ブランド, 政党, 国家など)に言及する可能性(最大78%)を, プロンプトにおける微妙な同義語置換が増加させることを示す。ユーザスタディを通じて観察を裏付け, 逆転するプロンプトを提示する。 1)人間による変更されていないプロンプトとは区別できない。 2 LLM を目標概念をより頻繁に推奨するよう推進し、 3) ユーザーが疑念を抱くことなく、ターゲットコンセプトに気付く可能性が高くなる。この攻撃の実用性は、ユーザーの自律性を損なう可能性がある。その他の措置として、信頼できない当事者からのプロンプトの使用に対する警告の実施を推奨する。

関連論文リスト

Friend or Foe: How LLMs' Safety Mind Gets Fooled by Intent Shift Attack [53.34204977366491]
大きな言語モデル(LLM)は、印象的な機能にもかかわらず、ジェイルブレイク攻撃に対して脆弱なままである。本稿では,攻撃意図について LLM を混乱させる ISA (Intent Shift Attack) を提案する。私たちのアプローチでは、元の要求に対して最小限の編集しか必要とせず、自然で、可読性があり、一見無害なプロンプトをもたらす。
論文参考訳（メタデータ） (2025-11-01T13:44:42Z)
Publish to Perish: Prompt Injection Attacks on LLM-Assisted Peer Review [17.869642243653985]
大規模言語モデル(LLM)は、科学的なピアレビュープロセスに統合されつつある。本研究は,著者が論文のPDFに敵対的テキストを埋め込む,隠れたプロンプトインジェクション攻撃の可能性について検討する。
論文参考訳（メタデータ） (2025-08-28T14:57:04Z)
LLM Hypnosis: Exploiting User Feedback for Unauthorized Knowledge Injection to All Users [50.18141341939909]
ユーザフィードバックで訓練された言語モデルにおける脆弱性について説明する。単一ユーザは、LMの知識と振る舞いを永続的に変更することができる。この攻撃は、モデルがこれまで持っていなかった事実的知識を挿入するのに有効であることを示す。
論文参考訳（メタデータ） (2025-07-03T17:55:40Z)
Conversational User-AI Intervention: A Study on Prompt Rewriting for Improved LLM Response Generation [16.8514748768591]
本稿では,ユーザクエリが情報要求の表現に欠ける側面と,LLMを用いてサブ最適ユーザプロンプトを書き換える可能性について検討する。本研究は, ユーザの本来の意図を保ちながら, 会話システムからより優れた応答を導き出すことができることを示す。
論文参考訳（メタデータ） (2025-03-21T02:01:02Z)
Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文参考訳（メタデータ） (2024-12-10T12:42:33Z)
On Targeted Manipulation and Deception when Optimizing LLMs for User Feedback [7.525470776920495]
人間のフィードバックを最大限にするためのトレーニングは、AIの逆インセンティブ構造を生み出します。操作や騙しといった極端な形式の「フィードバックゲーム」が確実に学習されていることがわかった。ユーザフィードバックなどゲーム可能なフィードバックソースをRLのターゲットとして使用するリスクを、私たちの結果が強調できることを願っています。
論文参考訳（メタデータ） (2024-11-04T17:31:02Z)
Aligning LLMs to Be Robust Against Prompt Injection [55.07562650579068]
インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
論文参考訳（メタデータ） (2024-10-07T19:34:35Z)
Why Are My Prompts Leaked? Unraveling Prompt Extraction Threats in Customized Large Language Models [15.764672596793352]
我々は,突発的漏洩のメカニズムを解析し,その機構を即発的記憶と呼び,対応する防御戦略を開発する。現在のLSMは、GPT-4のような安全アライメントを持つものでさえ、抽出攻撃の迅速化に非常に脆弱であることがわかった。
論文参考訳（メタデータ） (2024-08-05T12:20:39Z)
Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文参考訳（メタデータ） (2024-07-19T19:47:26Z)
Enhancing the Capability and Robustness of Large Language Models through Reinforcement Learning-Driven Query Refinement [32.888016435098045]
大きな言語モデル(LLM)の、正直で無害で有用な応答を生成する能力は、ユーザープロンプトの品質に大きく依存している。本研究では,LSMに入力される前にユーザプロンプトを洗練する,転送可能でプラグイン可能なフレームワークを提案する。この戦略はクエリの品質を改善し、LCMにより誠実で良質で有用なレスポンスを生成する権限を与えます。
論文参考訳（メタデータ） (2024-07-01T16:55:28Z)
AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs [51.217126257318924]
大規模言語モデル(LLM)は、不適切または有害なコンテンツの生成につながるジェイルブレイク攻撃に対して脆弱である。本稿では,AdvPrompter という別の LLM を用いて,人間可読な逆数プロンプトを数秒で生成する手法を提案する。
論文参考訳（メタデータ） (2024-04-21T22:18:13Z)
Defending Against Indirect Prompt Injection Attacks With Spotlighting [11.127479817618692]
一般的なアプリケーションでは、複数の入力は1つのテキストストリームにまとめることで処理できる。間接的なプロンプトインジェクション攻撃は、ユーザコマンドと共に処理されている信頼できないデータに、敵命令を埋め込むことによって、この脆弱性を利用する。我々は,複数の入力源を識別するLLMの能力を向上させるために,迅速なエンジニアリング技術群であるスポットライティングを紹介した。
論文参考訳（メタデータ） (2024-03-20T15:26:23Z)
SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文参考訳（メタデータ） (2023-10-05T17:01:53Z)
Evaluating the Instruction-Following Robustness of Large Language Models to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。この能力は、迅速なインジェクション攻撃のリスクをもたらす。このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文参考訳（メタデータ） (2023-08-17T06:21:50Z)
PromptRobust: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts [76.18347405302728]
本研究は、文字、単語、文、意味といった複数のレベルにわたるプロンプトを標的とした、敵対的なテキスト攻撃を多用する。相手のプロンプトは、感情分析、自然言語推論、読書理解、機械翻訳、数学の問題解決など様々なタスクに使用される。以上の結果から,現代の大規模言語モデルでは,敵対的プロンプトに対して頑健ではないことが示唆された。
論文参考訳（メタデータ） (2023-06-07T15:37:00Z)
Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文参考訳（メタデータ） (2023-02-23T17:14:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。