論文の概要: The Dark Side of Trust: Authority Citation-Driven Jailbreak Attacks on Large Language Models
- arxiv url: http://arxiv.org/abs/2411.11407v1
- Date: Mon, 18 Nov 2024 09:28:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:28:20.460841
- Title: The Dark Side of Trust: Authority Citation-Driven Jailbreak Attacks on Large Language Models
- Title(参考訳): 信頼のダークサイド:大規模言語モデルに対する当局の扇動駆動のジェイルブレイク攻撃
- Authors: Xikang Yang, Xuehai Tang, Jizhong Han, Songlin Hu,
- Abstract要約: 大きな言語モデル(LLM)が人間の価値と一致することを保証することが大きな関心事である。
本研究では, LLMの権威に対する偏見という新たな脅威を紹介する。
我々は,ブラックボックス設定用に設計された適応型権威引用マッチングとジェネレータであるDarkCiteを提案する。
- 参考スコア(独自算出の注目度): 27.046944831084776
- License:
- Abstract: The widespread deployment of large language models (LLMs) across various domains has showcased their immense potential while exposing significant safety vulnerabilities. A major concern is ensuring that LLM-generated content aligns with human values. Existing jailbreak techniques reveal how this alignment can be compromised through specific prompts or adversarial suffixes. In this study, we introduce a new threat: LLMs' bias toward authority. While this inherent bias can improve the quality of outputs generated by LLMs, it also introduces a potential vulnerability, increasing the risk of producing harmful content. Notably, the biases in LLMs is the varying levels of trust given to different types of authoritative information in harmful queries. For example, malware development often favors trust GitHub. To better reveal the risks with LLM, we propose DarkCite, an adaptive authority citation matcher and generator designed for a black-box setting. DarkCite matches optimal citation types to specific risk types and generates authoritative citations relevant to harmful instructions, enabling more effective jailbreak attacks on aligned LLMs.Our experiments show that DarkCite achieves a higher attack success rate (e.g., LLama-2 at 76% versus 68%) than previous methods. To counter this risk, we propose an authenticity and harm verification defense strategy, raising the average defense pass rate (DPR) from 11% to 74%. More importantly, the ability to link citations to the content they encompass has become a foundational function in LLMs, amplifying the influence of LLMs' bias toward authority.
- Abstract(参考訳): さまざまなドメインにまたがる大規模言語モデル(LLM)の広範な展開は、その潜在的な可能性を示しながら、重大な安全性の脆弱性を明らかにしている。
主な関心事は、LLM生成コンテンツが人間の価値観と一致していることである。
既存のジェイルブレイク技術は、このアライメントが特定のプロンプトや敵のサフィックスによってどのように妥協されるかを明らかにする。
本研究では, LLMの権威に対する偏見という新たな脅威を紹介する。
この固有のバイアスは、LSMによって生成された出力の品質を向上させることができるが、潜在的な脆弱性を導入し、有害なコンテンツを生み出すリスクを増大させる。
特に、LSMのバイアスは、有害なクエリにおける様々な種類の権威情報に対して与えられる様々な信頼レベルである。
例えば、マルウェア開発はGitHubを信頼することが多い。
LLMのリスクを明らかにするために,ブラックボックス設定用に設計された適応型権威引用マッチングおよびジェネレータであるDarkCiteを提案する。
DarkCiteは、特定のリスクタイプに最適な引用タイプを一致させ、有害な指示に関連する権威的な引用を生成し、協調LDMに対するより効果的なジェイルブレイク攻撃を可能にし、我々の実験では、DarkCiteが以前の方法よりも高い攻撃成功率(例えば、LLama-2の76%対68%)を達成することを示した。
このリスクに対処するため、我々は、平均防衛パスレート(DPR)を11%から74%に引き上げる、信頼度と有害な検証防衛戦略を提案する。
より重要なのは、引用をそれらが包含する内容にリンクする能力がLLMの基本機能となり、LLMの権威に対するバイアスの影響を増幅することである。
関連論文リスト
- Do LLMs Have Political Correctness? Analyzing Ethical Biases and Jailbreak Vulnerabilities in AI Systems [0.0]
我々は,PCJailbreakの概念を導入し,これらの安全性に起因したバイアスによって引き起こされる固有のリスクを強調した。
生成前に防御プロンプトを注入することでジェイルブレイクを防ぎ,効率的な防御手法であるPCDefenseを提案する。
論文 参考訳(メタデータ) (2024-10-17T08:46:09Z) - Probing the Safety Response Boundary of Large Language Models via Unsafe Decoding Path Generation [44.09578786678573]
大きな言語モデル(LLM)は暗黙のトラブルメーカーである。
LLMは有害なデータ収集や隠蔽攻撃に使用できる。
私たちはこのデコード戦略をJVD(Jailbreak Value Decoding)と名付けます。
論文 参考訳(メタデータ) (2024-08-20T09:11:21Z) - Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing [14.094372002702476]
大規模言語モデル(LLM)は、広範囲の現実世界のアプリケーションで採用されつつある。
近年の研究では、LSMは故意に構築された敵のプロンプトに弱いことが示されている。
そこで本研究では,新しい防衛手法である textbfLayer-specific textbfEditing (LED) を提案する。
論文 参考訳(メタデータ) (2024-05-28T13:26:12Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to
Challenge AI Safety by Humanizing LLMs [66.05593434288625]
本稿では, 大規模言語モデル (LLM) を人間のようなコミュニケーション手段として, ジェイルブレイクの新たな視点を紹介する。
本研究では,数十年にわたる社会科学研究から派生した説得的分類法を適用し,説得的敵対的プロンプト(PAP)をジェイルブレイク LLM に適用する。
PAPは、Llama 2-7b Chat、GPT-3.5、GPT-4の攻撃成功率を10ドルで一貫して92%以上達成している。
防衛面では,PAPに対する様々なメカニズムを探索し,既存の防衛に重大なギャップがあることを見出した。
論文 参考訳(メタデータ) (2024-01-12T16:13:24Z) - A Survey on Large Language Model (LLM) Security and Privacy: The Good, the Bad, and the Ugly [21.536079040559517]
大規模言語モデル(LLM)は、自然言語の理解と生成に革命をもたらした。
本稿では,LLMとセキュリティとプライバシの交わりについて考察する。
論文 参考訳(メタデータ) (2023-12-04T16:25:18Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models [102.63973600144308]
オープンソースの大規模言語モデルは、有害なコンテンツを生成するために容易に変換できる。
5つの異なる組織がリリースした8つのモデルに対する実験は、シャドーアライメントアタックの有効性を実証している。
この研究は、悪意のある攻撃者に対するオープンソースのLLMの安全性を見直し、強化するための集団的な取り組みの発端となる。
論文 参考訳(メタデータ) (2023-10-04T16:39:31Z) - Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM [23.16217797677075]
我々は、アライメントを破る可能性のある攻撃に対して、ロバストにアライメントされたLLM(RA-LLM)を導入する。
RA-LLMは、最先端の敵のプロンプトと、手作りのジェイルブレイクプロンプトの両方を防御できる。
論文 参考訳(メタデータ) (2023-09-18T02:07:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。