Fugu-MT 論文翻訳(概要): Hidden You Malicious Goal Into Benigh Narratives: Jailbreak Large Language Models through Logic Chain Injection

論文の概要: Hidden You Malicious Goal Into Benigh Narratives: Jailbreak Large Language Models through Logic Chain Injection

arxiv url: http://arxiv.org/abs/2404.04849v1
Date: Sun, 7 Apr 2024 07:42:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-09 19:20:53.180279
Title: Hidden You Malicious Goal Into Benigh Narratives: Jailbreak Large Language Models through Logic Chain Injection
Title（参考訳）: 悪意のある目標をベニーナラティブに隠した - 論理的連鎖注入による大規模言語モデルのジェイルブレイク
Authors: Zhilong Wang, Yebo Cao, Peng Liu,
Abstract要約: 既存のjailbreak攻撃は言語モデル(LLM)をうまく騙すことができる本稿では,LLMと人間(セキュリティアナリスト)の両方を欺く新しいタイプのジェイルブレイク攻撃を提案する。
参考スコア（独自算出の注目度）: 2.235763774591544
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Jailbreak attacks on Language Model Models (LLMs) entail crafting prompts aimed at exploiting the models to generate malicious content. Existing jailbreak attacks can successfully deceive the LLMs, however they cannot deceive the human. This paper proposes a new type of jailbreak attacks which can deceive both the LLMs and human (i.e., security analyst). The key insight of our idea is borrowed from the social psychology - that is human are easily deceived if the lie is hidden in truth. Based on this insight, we proposed the logic-chain injection attacks to inject malicious intention into benign truth. Logic-chain injection attack firstly dissembles its malicious target into a chain of benign narrations, and then distribute narrations into a related benign article, with undoubted facts. In this way, newly generate prompt cannot only deceive the LLMs, but also deceive human.
Abstract（参考訳）: 言語モデルモデル(LLM)に対するジェイルブレイク攻撃には、悪意のあるコンテンツを生成するためにモデルを活用することを目的としたクラフトプロンプトが含まれる。既存のジェイルブレイク攻撃はLLMを欺くことができるが、人間を欺くことはできない。本稿では,LLMと人間(セキュリティアナリスト)の両方を騙すことができる新しいタイプのジェイルブレイク攻撃を提案する。人間の考え方は、嘘が真実に隠されている場合、容易に騙される。この知見に基づいて,悪意ある意図を真理に注入するロジックチェーンインジェクション攻撃を提案した。論理鎖インジェクション攻撃は、まず悪意のあるターゲットを良心的なナレーションの連鎖に分解し、そのナレーションを疑わしい事実とともに関連する良心的な記事に分配する。このように、新たに生成されたプロンプトは、LSMを騙すだけでなく、人間を騙すこともできる。

関連論文リスト

XBreaking: Explainable Artificial Intelligence for Jailbreaking LLMs [1.6874375111244329]
大規模言語モデルは、AIソリューションが支配する現代のIT業界における基本的なアクターである。本稿では、検閲されたモデルと検閲されていないモデルの振る舞いを比較分析して、ユニークな利用可能なアライメントパターンを導出する説明可能なAIソリューションを提案する。そこで我々は,これらのユニークなパターンを利用して,ターゲットノイズ注入によるLLMのセキュリティ制約を破る,新しいジェイルブレイク攻撃であるXBreakingを提案する。
論文参考訳（メタデータ） (2025-04-30T14:44:24Z)
Sugar-Coated Poison: Benign Generation Unlocks LLM Jailbreaking [13.939357884952154]
我々は,大規模言語モデル(LLM)の脆弱性を明らかにし,その脆弱性をDefense Threshold Decay (DTD)と呼ぶ。モデルがかなりの良性コンテンツを生成すると、その注意重みは入力から事前出力へと変化し、ジェイルブレイク攻撃の影響を受けやすくなります。このような攻撃を緩和するため,単純な防御戦略であるPOSDを導入し,脱獄の成功率を大幅に低減する。
論文参考訳（メタデータ） (2025-04-08T03:57:09Z)
Na'vi or Knave: Jailbreaking Language Models via Metaphorical Avatars [13.496824581458547]
本稿では,大規模言語モデル(LLM)の想像能力を利用してジェイルブレイクを実現する新たな攻撃フレームワークを提案する。特に、AVATARは、与えられた有害な標的から有害な物質を抽出し、無害な敵性物質にマッピングする。その結果, AVATAR は脱獄性 LLM を効果的に導入し, 最先端の攻撃成功率を達成できることが示唆された。
論文参考訳（メタデータ） (2024-12-10T10:14:03Z)
SQL Injection Jailbreak: a structural disaster of large language models [71.55108680517422]
LLMによる入力プロンプトの構築を利用して、ユーザプロンプトにジェイルブレイク情報を注入する新しいジェイルブレイク手法を提案する。提案手法は,AdvBench の文脈でよく知られた5つのオープンソース LLM に対する攻撃成功率を約100% 達成する。
論文参考訳（メタデータ） (2024-11-03T13:36:34Z)
An Interpretable N-gram Perplexity Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。私たちの脅威モデルは、あるジェイルブレイクがテキストの配布で起こりそうなかどうかをチェックします。私たちはこの脅威モデルに人気のある攻撃を適応させ、これらの攻撃を同等の足場でベンチマークしました。
論文参考訳（メタデータ） (2024-10-21T17:27:01Z)
Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文参考訳（メタデータ） (2024-10-15T06:31:04Z)
Hide Your Malicious Goal Into Benign Narratives: Jailbreak Large Language Models through Neural Carrier Articles [10.109063166962079]
本稿では,言語モデルモデル(LLM)の注意を移す新しいタイプのジェイルブレイク攻撃を提案する。提案攻撃では,知識グラフとLLMを利用して,禁止クエリのトピックに類似したキャリア記事を自動的に生成する。実験の結果,提案手法はクロード3を除いて,高い成功率の目標LLMを投獄できることがわかった。
論文参考訳（メタデータ） (2024-08-20T20:35:04Z)
BaThe: Defense against the Jailbreak Attack in Multimodal Large Language Models by Treating Harmful Instruction as Backdoor Trigger [47.1955210785169]
本研究では,単純なジェイルブレイク防御機構である$textbfBaTheを提案する。ジェイルブレイクバックドア攻撃は、手作りの弦と組み合わされた有害な命令をトリガーとして使用し、バックドアモデルが禁止された応答を生成する。有害な命令がトリガーとして機能し、代わりにリジェクション応答をトリガー応答として設定すれば、バックドアモデルがジェイルブレイク攻撃に対して防御できると仮定する。
論文参考訳（メタデータ） (2024-08-17T04:43:26Z)
Large Language Models Are Involuntary Truth-Tellers: Exploiting Fallacy Failure for Jailbreak Attacks [6.614364170035397]
言語モデルでは、誤った推論や偽りの推論を発生させることが困難であることがわかった。本稿では、悪意のある出力に対して一致した言語モデルを引き出すジェイルブレイク攻撃法を提案する。
論文参考訳（メタデータ） (2024-07-01T00:23:43Z)
Towards Understanding Jailbreak Attacks in LLMs: A Representation Space Analysis [47.81417828399084]
大規模言語モデル(LLM)は、有害な内容を出力するためにLLMを誤解させるジェイルブレーキング(jailbreaking)と呼ばれるタイプの攻撃を受けやすい。本稿では, LLMの表現空間における有害かつ無害なプロンプトの挙動を考察し, ジェイルブレイク攻撃の本質的特性について検討する。
論文参考訳（メタデータ） (2024-06-16T03:38:48Z)
Enhancing Jailbreak Attack Against Large Language Models through Silent Tokens [22.24239212756129]
既存のジェイルブレイク攻撃では、人間の専門家か、複雑なアルゴリズムを使ってプロンプトを作らなければならない。 eosトークンのみを活用する単純な攻撃であるBOOSTを導入する。 LLMがジェイルブレイク攻撃に対して脆弱であることが判明し、強力な安全アライメントアプローチの開発が動機となった。
論文参考訳（メタデータ） (2024-05-31T07:41:03Z)
Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。 LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文参考訳（メタデータ） (2024-02-21T18:59:13Z)
AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文参考訳（メタデータ） (2023-10-23T17:46:07Z)
Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。 LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-12T15:38:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。