論文の概要: Chain-of-Lure: A Synthetic Narrative-Driven Approach to Compromise Large Language Models
- arxiv url: http://arxiv.org/abs/2505.17519v1
- Date: Fri, 23 May 2025 06:19:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.863397
- Title: Chain-of-Lure: A Synthetic Narrative-Driven Approach to Compromise Large Language Models
- Title(参考訳): Chain-of-Lure: 大規模言語モデルを補完する合成ナラティブ駆動型アプローチ
- Authors: Wenhan Chang, Tianqing Zhu, Yu Zhao, Shuangyong Song, Ping Xiong, Wanlei Zhou, Yongxiang Li,
- Abstract要約: そこで本研究では,Chain-of-Thought機構にインスパイアされた新しいジェイルブレイク手法を提案する。
攻撃モデルは、ミッション転送を使用して、対話において有害なユーザ意図を隠蔽し、連鎖した物語のルアーを生成し、被害者モデルの推論能力を刺激する。
我々の実験では、より弱い安全機構を持つモデルはより強力な攻撃能力を示し、モデルを活用できるだけでなく、他人を傷つける助けにもなることを示した。
- 参考スコア(独自算出の注目度): 15.134149399922192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the era of rapid generative AI development, interactions between humans and large language models face significant misusing risks. Previous research has primarily focused on black-box scenarios using human-guided prompts and white-box scenarios leveraging gradient-based LLM generation methods, neglecting the possibility that LLMs can act not only as victim models, but also as attacker models to harm other models. We proposes a novel jailbreaking method inspired by the Chain-of-Thought mechanism, where the attacker model uses mission transfer to conceal harmful user intent in dialogue and generates chained narrative lures to stimulate the reasoning capabilities of victim models, leading to successful jailbreaking. To enhance the attack success rate, we introduce a helper model that performs random narrative optimization on the narrative lures during multi-turn dialogues while ensuring alignment with the original intent, enabling the optimized lures to bypass the safety barriers of victim models effectively. Our experiments reveal that models with weaker safety mechanisms exhibit stronger attack capabilities, demonstrating that models can not only be exploited, but also help harm others. By incorporating toxicity scores, we employ third-party models to evaluate the harmfulness of victim models' responses to jailbreaking attempts. The study shows that using refusal keywords as an evaluation metric for attack success rates is significantly flawed because it does not assess whether the responses guide harmful questions, while toxicity scores measure the harm of generated content with more precision and its alignment with harmful questions. Our approach demonstrates outstanding performance, uncovering latent vulnerabilities in LLMs and providing data-driven feedback to optimize LLM safety mechanisms. We also discuss two defensive strategies to offer guidance on improving defense mechanisms.
- Abstract(参考訳): 素早い生成AI開発の時代、人間と大きな言語モデルの間の相互作用は、重大な誤用リスクに直面している。
これまでの研究は、人誘導のプロンプトと、勾配に基づくLSM生成手法を利用したホワイトボックスシナリオを用いたブラックボックスシナリオに重点を置いてきたが、LSMが犠牲者モデルとしてだけでなく、他のモデルを傷つける攻撃モデルとしても機能する可能性を無視している。
そこで本研究では,攻撃者モデルがミッション転送を利用して対話中に有害なユーザ意図を隠蔽し,被害者モデルの推論能力を刺激し,ジェイルブレイクを成功させる,新たなジェイルブレイク手法を提案する。
攻撃成功率を高めるため,マルチターン対話における物語の結末をランダムに最適化するヘルパーモデルを導入し,本来の意図と整合性を確保した上で,被害者モデルの安全障壁を効果的に回避する。
我々の実験では、より弱い安全機構を持つモデルはより強力な攻撃能力を示し、モデルを活用できるだけでなく、他人を傷つける助けにもなることを示した。
毒性スコアを組み込むことで, 脱獄の試みに対する被害者モデルの反応の有害性を評価するために, 第三者モデルを用いた。
本研究は, 攻撃成功率評価指標としてリファレルキーワードを用いた場合, 応答が有害な質問を誘導するかどうかを判定せず, 有害度スコアは, より精度が高く, 有害な質問に適応して生成したコンテンツの害を計測するので, 重大な欠陥があることを示した。
提案手法は,LSMの安全性を最適化するためのデータ駆動フィードバックを提供するとともに,LCMの潜在的な脆弱性を明らかにし,優れた性能を示す。
また、防衛機構の改善に関するガイダンスを提供するための2つの防衛戦略についても論じる。
関連論文リスト
- Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [0.0]
大規模言語モデル(LLM)は人工知能に革命をもたらし、機械翻訳、要約、会話エージェントの進歩を推進している。
近年の研究では、LSMは偏りのある反応を誘発するために設計された敵攻撃に弱いままである。
本研究は,LLMの逆バイアス誘発に対する堅牢性を評価するためのスケーラブルなベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-10T16:00:59Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - How Jailbreak Defenses Work and Ensemble? A Mechanistic Investigation [39.44000290664494]
ジェイルブレイク攻撃は、生成モデルのビルトインセーフをバイパスする有害なプロンプトであり、モデルの脆弱性に対する深刻な懸念を引き起こす。
本稿では,標準生成タスクをバイナリ分類問題として再検討することにより,ジェイルブレイク防御を体系的に検討する。
我々は,全てのクエリに対する拒絶率を増加させる安全性シフトと,有害な入力と良質な入力を区別するモデルの能力を向上させる有害性判別という2つの主要な防御メカニズムを同定する。
論文 参考訳(メタデータ) (2025-02-20T12:07:40Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities [49.09703018511403]
大規模言語モデル(LLM)のリスクと能力の評価は、AIのリスク管理とガバナンスフレームワークにますます取り入れられている。
現在、ほとんどのリスク評価は、システムから有害な振る舞いを誘発する入力を設計することで実施されている。
本稿では,遅延活性化や重みへの修正が可能なモデル改ざん攻撃を用いたLCMの評価を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:59:16Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Chain of Attack: On the Robustness of Vision-Language Models Against Transfer-Based Adversarial Attacks [34.40254709148148]
事前学習された視覚言語モデル(VLM)は、画像および自然言語理解において顕著な性能を示した。
彼らの潜在的な安全性と堅牢性の問題は、敵がシステムを回避し、悪意のある攻撃を通じて有害なコンテンツを生成することを懸念する。
本稿では,マルチモーダルなセマンティック・アップデートに基づいて,敵対的事例の生成を反復的に促進するアタック・チェーン(CoA)を提案する。
論文 参考訳(メタデータ) (2024-11-24T05:28:07Z) - The Dark Side of Human Feedback: Poisoning Large Language Models via User Inputs [8.449922248196705]
我々は,アライメントトレーニング保護を貫くために,ユーザから供給されるプロンプトを介して,微妙ながら効果的な毒殺攻撃を行う。
我々の攻撃は、ブラックボックス設定における目標LLMの明示的な知識がなくても、報酬フィードバック機構を微妙に変更する。
これらの特殊なプロンプトの1%をデータに注入することにより、悪意のあるユーザを通して、特定のトリガーワードを使用する場合の毒性スコアを最大2倍に向上させる。
論文 参考訳(メタデータ) (2024-09-01T17:40:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。