論文の概要: ChatBug: A Common Vulnerability of Aligned LLMs Induced by Chat Templates
- arxiv url: http://arxiv.org/abs/2406.12935v1
- Date: Mon, 17 Jun 2024 03:03:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 00:37:55.220452
- Title: ChatBug: A Common Vulnerability of Aligned LLMs Induced by Chat Templates
- Title(参考訳): ChatBug: Chatテンプレートによって誘導される配向LDMの共通脆弱性
- Authors: Fengqing Jiang, Zhangchen Xu, Luyao Niu, Bill Yuchen Lin, Radha Poovendran,
- Abstract要約: チャットテンプレートによって導入された共通の脆弱性であるChatBugを特定します。
悪意のあるユーザーは、チャットテンプレートの知識を活用して、大きな言語モデルの安全アライメントを回避できる。
ChatBugの脆弱性を悪用する2つの攻撃を開発した。
- 参考スコア(独自算出の注目度): 12.87887398974395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are expected to follow instructions from users and engage in conversations. Techniques to enhance LLMs' instruction-following capabilities typically fine-tune them using data structured according to a predefined chat template. Although chat templates are shown to be effective in optimizing LLM performance, their impact on safety alignment of LLMs has been less understood, which is crucial for deploying LLMs safely at scale. In this paper, we investigate how chat templates affect safety alignment of LLMs. We identify a common vulnerability, named ChatBug, that is introduced by chat templates. Our key insight to identify ChatBug is that the chat templates provide a rigid format that need to be followed by LLMs, but not by users. Hence, a malicious user may not necessarily follow the chat template when prompting LLMs. Instead, malicious users could leverage their knowledge of the chat template and accordingly craft their prompts to bypass safety alignments of LLMs. We develop two attacks to exploit the ChatBug vulnerability. We demonstrate that a malicious user can exploit the ChatBug vulnerability of eight state-of-the-art (SOTA) LLMs and effectively elicit unintended responses from these models. Moreover, we show that ChatBug can be exploited by existing jailbreak attacks to enhance their attack success rates. We investigate potential countermeasures to ChatBug. Our results show that while adversarial training effectively mitigates the ChatBug vulnerability, the victim model incurs significant performance degradation. These results highlight the trade-off between safety alignment and helpfulness. Developing new methods for instruction tuning to balance this trade-off is an open and critical direction for future research
- Abstract(参考訳): 大規模言語モデル(LLM)は、ユーザからの指示に従って会話を行うことが期待されている。
LLMの命令フォロー機能を強化する技術は、通常、事前に定義されたチャットテンプレートに従って構造化されたデータを使って微調整する。
チャットテンプレートはLLM性能の最適化に有効であることが示されているが,LLMの安全性に対する影響は理解されていない。
本稿では,チャットテンプレートがLLMの安全性にどのように影響するかを検討する。
チャットテンプレートによって導入された共通の脆弱性であるChatBugを特定します。
ChatBugを識別するための重要な洞察は、チャットテンプレートがLLMに従わなければならない堅固なフォーマットを提供するが、ユーザによるものではない、ということです。
したがって、悪意のあるユーザは、LSMのプロンプト時に必ずしもチャットテンプレートに従うとは限らない。
悪意のあるユーザは、チャットテンプレートの知識を活用して、LSMの安全アライメントをバイパスするプロンプトを作れます。
ChatBugの脆弱性を悪用する2つの攻撃を開発した。
悪意のあるユーザが8つのSOTA (State-of-the-art) LLMのChatBug脆弱性を悪用し、これらのモデルから意図しない応答を効果的に引き出すことができることを示す。
さらに,ChatBugは既存のジェイルブレイク攻撃によって悪用され,攻撃成功率を高めることができることを示す。
ChatBugに対する潜在的な対策について検討する。
以上の結果から,ChatBug脆弱性を効果的に軽減する一方で,被害者モデルでは性能劣化が顕著であることがわかった。
これらの結果は、安全アライメントと有用性の間のトレードオフを浮き彫りにしている。
このトレードオフのバランスをとるための新しい指導法の開発は、今後の研究にとってオープンで重要な方向である
関連論文リスト
- MaPPing Your Model: Assessing the Impact of Adversarial Attacks on LLM-based Programming Assistants [14.947665219536708]
本稿では,攻撃者がプログラムタスクのプロンプトに少量のテキストを付加するMalicious Programming Prompt(MaPP)攻撃を紹介する。
我々の迅速な戦略は、LSMが他の方法で正しいコードを書き続けながら脆弱性を追加する可能性があることを示しています。
論文 参考訳(メタデータ) (2024-07-12T22:30:35Z) - Hidden in Plain Sight: Exploring Chat History Tampering in Interactive Language Models [12.920884182101142]
大規模言語モデル(LLM)は、実世界のアプリケーションで普及し、素晴らしいテキスト生成性能を示している。
LLMベースのチャットシステムは、対話的に振る舞うためには、事前に定義された構造に従って、事前のチャット履歴を入力のコンテキストとして統合する必要がある。
本稿では,目標モデルの事前知識を必要とせずに,LLM会話にユーザ提供履歴を注入するための体系的手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T16:36:47Z) - Exploring Backdoor Vulnerabilities of Chat Models [31.802374847226393]
近年の研究では、LLM(Large Language Models)がバックドアアタック(Backdoor Attack)と呼ばれるセキュリティの脅威を受けやすいことが示されている。
本稿では,異なるラウンドのユーザ入力に対して複数のトリガシナリオを分散することで,チャットモデルに対する新たなバックドア攻撃手法を提案する。
実験により,チャットモデルの正常な性能を維持しつつ,高い攻撃成功率を達成できることが実証された。
論文 参考訳(メタデータ) (2024-04-03T02:16:53Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - From Chatbots to PhishBots? -- Preventing Phishing scams created using
ChatGPT, Google Bard and Claude [3.7741995290294943]
本研究では,一般的な4つの大規模言語モデルを用いてフィッシング攻撃を発生させる可能性について検討する。
我々は、悪意のあるプロンプトの早期検出に使用できるBERTベースの自動検出ツールを構築した。
我々のモデルは4つの商用LCM間で転送可能であり、フィッシングサイトプロンプトの平均精度は96%、フィッシングメールプロンプトの平均精度は94%である。
論文 参考訳(メタデータ) (2023-10-29T22:52:40Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models [102.63973600144308]
オープンソースの大規模言語モデルは、有害なコンテンツを生成するために容易に変換できる。
5つの異なる組織がリリースした8つのモデルに対する実験は、シャドーアライメントアタックの有効性を実証している。
この研究は、悪意のある攻撃者に対するオープンソースのLLMの安全性を見直し、強化するための集団的な取り組みの発端となる。
論文 参考訳(メタデータ) (2023-10-04T16:39:31Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。