論文の概要: Large Language Models are Vulnerable to Bait-and-Switch Attacks for
Generating Harmful Content
- arxiv url: http://arxiv.org/abs/2402.13926v1
- Date: Wed, 21 Feb 2024 16:46:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 14:29:38.677633
- Title: Large Language Models are Vulnerable to Bait-and-Switch Attacks for
Generating Harmful Content
- Title(参考訳): 大規模言語モデルは、有害コンテンツを生成するためのBait-and-Switch攻撃に対して脆弱である
- Authors: Federico Bianchi, James Zou
- Abstract要約: 大きな言語モデルから来る安全なテキストでさえ、Bait-and-Switch攻撃によって潜在的に危険なコンテンツになる可能性がある。
このアプローチの目覚ましい有効性は、LLMの信頼性の高い安全ガードレールを開発する上で重要な課題を浮き彫りにする。
- 参考スコア(独自算出の注目度): 33.99403318079253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The risks derived from large language models (LLMs) generating deceptive and
damaging content have been the subject of considerable research, but even safe
generations can lead to problematic downstream impacts. In our study, we shift
the focus to how even safe text coming from LLMs can be easily turned into
potentially dangerous content through Bait-and-Switch attacks. In such attacks,
the user first prompts LLMs with safe questions and then employs a simple
find-and-replace post-hoc technique to manipulate the outputs into harmful
narratives. The alarming efficacy of this approach in generating toxic content
highlights a significant challenge in developing reliable safety guardrails for
LLMs. In particular, we stress that focusing on the safety of the verbatim LLM
outputs is insufficient and that we also need to consider post-hoc
transformations.
- Abstract(参考訳): 大規模言語モデル(LLMs)から生じる誤認や有害なコンテンツを生み出すリスクは、かなりの研究の対象となっているが、安全な世代でさえ、下流への影響に問題を引き起こす可能性がある。
本研究では,llmからの安全なテキストが,餌とスイッチによる攻撃によって潜在的に危険なコンテンツに容易に変換できる方法に焦点を移す。
このような攻撃では、ユーザはまず、安全な質問をllmに促し、次いで簡単な find-and-replace post-hoc technique を使って出力を有害な物語に操作する。
毒性物質の生成におけるこのアプローチの有効性は、LCMの信頼性の高い安全ガードレールを開発する上で大きな課題となっている。
特に,LLM出力の安全性に重点を置くことは不十分であり,ポストホック変換も検討する必要があることを強調する。
関連論文リスト
- Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks [88.84977282952602]
最近のMLセキュリティ文献は、整列型大規模言語モデル(LLM)に対する攻撃に焦点を当てている。
本稿では,LLMエージェントに特有のセキュリティとプライバシの脆弱性を分析する。
我々は、人気のあるオープンソースおよび商用エージェントに対する一連の実証的な攻撃を行い、その脆弱性の即時的な影響を実証した。
論文 参考訳(メタデータ) (2025-02-12T17:19:36Z) - Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。
この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。
本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-10T12:42:33Z) - CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。
視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。
本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文 参考訳(メタデータ) (2024-09-17T17:14:41Z) - Probing the Safety Response Boundary of Large Language Models via Unsafe Decoding Path Generation [44.09578786678573]
大きな言語モデル(LLM)は暗黙のトラブルメーカーである。
LLMは有害なデータ収集や隠蔽攻撃に使用できる。
私たちはこのデコード戦略をJVD(Jailbreak Value Decoding)と名付けます。
論文 参考訳(メタデータ) (2024-08-20T09:11:21Z) - Robustifying Safety-Aligned Large Language Models through Clean Data Curation [11.273749179260468]
大きな言語モデル(LLM)は、有害なコンテンツを含むデータセットでトレーニングされた場合、脆弱性がある。
本稿では,両シナリオにおける敵対的影響に対処するためのデータキュレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-24T04:50:38Z) - MLLM-Protector: Ensuring MLLM's Safety without Hurting Performance [36.03512474289962]
本稿では,視覚入力による悪意ある攻撃に対してMLLMを防御する新たな課題について検討する。
画像は、安全アライメントの間に考慮されていない「外国語として機能する」ため、MLLMは有害な反応を生じやすい。
MLLM-Protectorは,1)軽量害検知器による有害応答の同定,2)除毒器による有害応答の無害化という2つのサブタスクを解決するためのプラグアンドプレイ戦略である。
論文 参考訳(メタデータ) (2024-01-05T17:05:42Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - A Survey on Large Language Model (LLM) Security and Privacy: The Good, the Bad, and the Ugly [21.536079040559517]
大規模言語モデル(LLM)は、自然言語の理解と生成に革命をもたらした。
本稿では,LLMとセキュリティとプライバシの交わりについて考察する。
論文 参考訳(メタデータ) (2023-12-04T16:25:18Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z) - Goal-Oriented Prompt Attack and Safety Evaluation for LLMs [43.93613764464993]
高品質なプロンプト攻撃サンプルを構築するパイプラインと、CPADと呼ばれる中国のプロンプト攻撃データセットを導入する。
我々のプロンプトは、慎重に設計されたいくつかのプロンプトアタックテンプレートで、予期せぬ出力を生成するためにLSMを誘導することを目的としている。
GPT-3.5に対する攻撃成功率は70%程度であった。
論文 参考訳(メタデータ) (2023-09-21T07:07:49Z) - LLM Censorship: A Machine Learning Challenge or a Computer Security
Problem? [52.71988102039535]
セマンティック検閲は決定不能な問題として認識できることを示す。
我々は、知識のある攻撃者が不寛容なアウトプットを再構築できるため、これらの課題はセマンティックな検閲を超えて拡張されていると論じる。
論文 参考訳(メタデータ) (2023-07-20T09:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。