論文の概要: from Benign import Toxic: Jailbreaking the Language Model via Adversarial Metaphors
- arxiv url: http://arxiv.org/abs/2503.00038v1
- Date: Tue, 25 Feb 2025 08:41:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-09 03:20:29.774245
- Title: from Benign import Toxic: Jailbreaking the Language Model via Adversarial Metaphors
- Title(参考訳): From Benign import Toxic: Jailbreaking the Language Model via Adversarial Metaphors
- Authors: Yu Yan, Sheng Sun, Zenghao Duan, Teli Liu, Min Liu, Zhiyi Yin, Qi Li, Jiangyu Lei,
- Abstract要約: 本稿では,AdVersArial meTAphoR(AVATAR)を利用して大規模言語モデルを誘導し,脱獄の悪質な隠喩を校正する新たな攻撃フレームワークを提案する。
AVATARは脱獄性LDMを効果的かつ効果的に導入できることを示す実験結果が得られた。
- 参考スコア(独自算出の注目度): 11.783273882437824
- License:
- Abstract: Current studies have exposed the risk of Large Language Models (LLMs) generating harmful content by jailbreak attacks. However, they overlook that the direct generation of harmful content from scratch is more difficult than inducing LLM to calibrate benign content into harmful forms. In our study, we introduce a novel attack framework that exploits AdVersArial meTAphoR (AVATAR) to induce the LLM to calibrate malicious metaphors for jailbreaking. Specifically, to answer harmful queries, AVATAR adaptively identifies a set of benign but logically related metaphors as the initial seed. Then, driven by these metaphors, the target LLM is induced to reason and calibrate about the metaphorical content, thus jailbroken by either directly outputting harmful responses or calibrating residuals between metaphorical and professional harmful content. Experimental results demonstrate that AVATAR can effectively and transferable jailbreak LLMs and achieve a state-of-the-art attack success rate across multiple advanced LLMs.
- Abstract(参考訳): 最近の研究は、大規模言語モデル(LLM)がジェイルブレイク攻撃によって有害なコンテンツを発生させるリスクを明らかにしている。
しかし, 有害な成分をスクラッチから直接発生させることは, 良性成分を有害な形態にキャリブレーションするためにLDMを誘導するよりも困難である。
そこで本研究では,AdVersArial meTAphoR(AVATAR)を利用してLLMを誘導し,脱獄の悪質な隠喩を校正する新たな攻撃フレームワークを提案する。
具体的には、有害なクエリに答えるために、AVATARは、良性だが論理的に関連するメタファーのセットを初期シードとして適応的に識別する。
そして、これらのメタファーによって、目標LDMは比喩的内容について推論し、校正するために誘導されるので、直接有害な応答を出力するか、比喩的および専門的な有害な内容間の残留を校正することでジェイルブレイクする。
実験により, AVATAR はジェイルブレイク LLM を効果的に, 転送可能であり, 複数の先進的 LLM をまたいで, 最先端の攻撃成功率を達成できることが示された。
関連論文リスト
- Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Na'vi or Knave: Jailbreaking Language Models via Metaphorical Avatars [13.496824581458547]
本稿では,大規模言語モデル(LLM)の想像能力を利用してジェイルブレイクを実現する新たな攻撃フレームワークを提案する。
特に、AVATARは、与えられた有害な標的から有害な物質を抽出し、無害な敵性物質にマッピングする。
その結果, AVATAR は脱獄性 LLM を効果的に導入し, 最先端の攻撃成功率を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-12-10T10:14:03Z) - IDEATOR: Jailbreaking Large Vision-Language Models Using Themselves [67.30731020715496]
ブラックボックスのジェイルブレイク攻撃に対して,悪意のある画像テキストペアを自動生成する新しいジェイルブレイク手法 IDEATOR を提案する。
IDEATORはVLMを使用して、ターゲットとなるJailbreakテキストを作成し、最先端の拡散モデルによって生成されたJailbreakイメージと組み合わせる。
平均5.34クエリでMiniGPT-4をジェイルブレイクし、LLaVA、InstructBLIP、Meta's Chameleonに転送すると82%、88%、75%という高い成功率を達成した。
論文 参考訳(メタデータ) (2024-10-29T07:15:56Z) - Multi-round jailbreak attack on large language models [2.540971544359496]
私たちは"ジェイルブレイク"攻撃をよりよく理解するために、マルチラウンドのジェイルブレイクアプローチを導入します。
この方法は危険なプロンプトを書き換え、有害でない一連のサブクエストに分解する。
実験の結果,ラマ2-7Bは94%の成功率を示した。
論文 参考訳(メタデータ) (2024-10-15T12:08:14Z) - Probing the Safety Response Boundary of Large Language Models via Unsafe Decoding Path Generation [44.09578786678573]
大きな言語モデル(LLM)は暗黙のトラブルメーカーである。
LLMは有害なデータ収集や隠蔽攻撃に使用できる。
私たちはこのデコード戦略をJVD(Jailbreak Value Decoding)と名付けます。
論文 参考訳(メタデータ) (2024-08-20T09:11:21Z) - Towards Understanding Jailbreak Attacks in LLMs: A Representation Space Analysis [47.81417828399084]
大規模言語モデル(LLM)は、有害な内容を出力するためにLLMを誤解させるジェイルブレーキング(jailbreaking)と呼ばれるタイプの攻撃を受けやすい。
本稿では, LLMの表現空間における有害かつ無害なプロンプトの挙動を考察し, ジェイルブレイク攻撃の本質的特性について検討する。
論文 参考訳(メタデータ) (2024-06-16T03:38:48Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - Jailbreaking Attack against Multimodal Large Language Model [69.52466793164618]
本稿では,マルチモーダル大規模言語モデル(MLLM)に対するジェイルブレイク攻撃に焦点を当てた。
imgJP (emphimage Jailbreaking Prompt) の探索手法を提案する。
提案手法は, 生成したimgJPをジェイルブレイクモデルに転送できるため, 強いモデル伝達性を示す。
論文 参考訳(メタデータ) (2024-02-04T01:29:24Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。