論文の概要: Large Language Models are Vulnerable to Bait-and-Switch Attacks for
Generating Harmful Content
- arxiv url: http://arxiv.org/abs/2402.13926v1
- Date: Wed, 21 Feb 2024 16:46:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 14:29:38.677633
- Title: Large Language Models are Vulnerable to Bait-and-Switch Attacks for
Generating Harmful Content
- Title(参考訳): 大規模言語モデルは、有害コンテンツを生成するためのBait-and-Switch攻撃に対して脆弱である
- Authors: Federico Bianchi, James Zou
- Abstract要約: 大きな言語モデルから来る安全なテキストでさえ、Bait-and-Switch攻撃によって潜在的に危険なコンテンツになる可能性がある。
このアプローチの目覚ましい有効性は、LLMの信頼性の高い安全ガードレールを開発する上で重要な課題を浮き彫りにする。
- 参考スコア(独自算出の注目度): 33.99403318079253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The risks derived from large language models (LLMs) generating deceptive and
damaging content have been the subject of considerable research, but even safe
generations can lead to problematic downstream impacts. In our study, we shift
the focus to how even safe text coming from LLMs can be easily turned into
potentially dangerous content through Bait-and-Switch attacks. In such attacks,
the user first prompts LLMs with safe questions and then employs a simple
find-and-replace post-hoc technique to manipulate the outputs into harmful
narratives. The alarming efficacy of this approach in generating toxic content
highlights a significant challenge in developing reliable safety guardrails for
LLMs. In particular, we stress that focusing on the safety of the verbatim LLM
outputs is insufficient and that we also need to consider post-hoc
transformations.
- Abstract(参考訳): 大規模言語モデル(LLMs)から生じる誤認や有害なコンテンツを生み出すリスクは、かなりの研究の対象となっているが、安全な世代でさえ、下流への影響に問題を引き起こす可能性がある。
本研究では,llmからの安全なテキストが,餌とスイッチによる攻撃によって潜在的に危険なコンテンツに容易に変換できる方法に焦点を移す。
このような攻撃では、ユーザはまず、安全な質問をllmに促し、次いで簡単な find-and-replace post-hoc technique を使って出力を有害な物語に操作する。
毒性物質の生成におけるこのアプローチの有効性は、LCMの信頼性の高い安全ガードレールを開発する上で大きな課題となっている。
特に,LLM出力の安全性に重点を置くことは不十分であり,ポストホック変換も検討する必要があることを強調する。
関連論文リスト
- Speak Out of Turn: Safety Vulnerability of Large Language Models in
Multi-turn Dialogue [10.703193963273128]
大規模言語モデル(LLM)は、違法または非倫理的な応答を生成することが実証されている。
本稿では,人間は多ターン対話を利用してLSMを誘導し,有害な情報を生成することができると論じる。
論文 参考訳(メタデータ) (2024-02-27T07:11:59Z) - From Noise to Clarity: Unraveling the Adversarial Suffix of Large
Language Model Attacks via Translation of Text Embeddings [64.26248561154509]
近年の研究では、有害な指示に接尾辞を付けることで、LSMの防御をハックできることが判明している。
本稿では,非可読な逆接尾辞をコヒーレントかつ可読なテキストに翻訳可能な逆接尾辞埋め込み翻訳フレームワーク(ASETF)を提案する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - The Wolf Within: Covert Injection of Malice into MLLM Societies via an
MLLM Operative [57.84617923683107]
本稿では,MLLM社会において,悪意のあるコンテンツの間接的伝播という新たな脆弱性について検討する。
MLLMの直接有害な出力生成とは違って,1つのMLLMエージェントを微妙に影響してプロンプトを生成する方法を示す。
この微妙で強力な間接的影響の手法は、MLLMに関連するセキュリティリスクを著しくエスカレーションしている。
論文 参考訳(メタデータ) (2024-02-20T23:08:21Z) - Leveraging the Context through Multi-Round Interactions for Jailbreaking
Attacks [60.7432588386185]
大規模言語モデル(LLM)は、脱獄攻撃の影響を受けやすい。
脱獄攻撃は、攻撃クエリを微調整することで有害な情報を抽出することを目的としている。
我々は、コンテキストインタラクションアタックと呼ばれる新しい攻撃形式に焦点を当てる。
論文 参考訳(メタデータ) (2024-02-14T13:45:19Z) - MLLM-Protector: Ensuring MLLM's Safety without Hurting Performance [31.043844145980675]
MLLM(Multimodal large language model)は、視覚入力による悪意のある攻撃を受けやすい言語である。
MLLM-Protectorは,軽量な高調波検出器と応答デトキシファイタを組み合わせたプラグアンドプレイ方式である。
このアプローチは、モデル全体のパフォーマンスを損なうことなく、悪意のある視覚入力によって引き起こされるリスクを効果的に軽減する。
論文 参考訳(メタデータ) (2024-01-05T17:05:42Z) - A Survey on Large Language Model (LLM) Security and Privacy: The Good,
the Bad, and the Ugly [22.819970080579004]
大規模言語モデル(LLM)は、自然言語の理解と生成に革命をもたらした。
本稿では,LLMとセキュリティとプライバシの交わりについて考察する。
論文 参考訳(メタデータ) (2023-12-04T16:25:18Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z) - Goal-Oriented Prompt Attack and Safety Evaluation for LLMs [43.93613764464993]
高品質なプロンプト攻撃サンプルを構築するパイプラインと、CPADと呼ばれる中国のプロンプト攻撃データセットを導入する。
我々のプロンプトは、慎重に設計されたいくつかのプロンプトアタックテンプレートで、予期せぬ出力を生成するためにLSMを誘導することを目的としている。
GPT-3.5に対する攻撃成功率は70%程度であった。
論文 参考訳(メタデータ) (2023-09-21T07:07:49Z) - LLM Censorship: A Machine Learning Challenge or a Computer Security
Problem? [52.71988102039535]
セマンティック検閲は決定不能な問題として認識できることを示す。
我々は、知識のある攻撃者が不寛容なアウトプットを再構築できるため、これらの課題はセマンティックな検閲を超えて拡張されていると論じる。
論文 参考訳(メタデータ) (2023-07-20T09:25:02Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。