論文の概要: "To Survive, I Must Defect": Jailbreaking LLMs via the Game-Theory Scenarios
- arxiv url: http://arxiv.org/abs/2511.16278v1
- Date: Thu, 20 Nov 2025 11:56:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.59986
- Title: "To Survive, I Must Defect": Jailbreaking LLMs via the Game-Theory Scenarios
- Title(参考訳): 『生き残るために、私は欠陥を犯さなければならない』:ゲーム理論シナリオによるLLMのジェイルブレイク
- Authors: Zhen Sun, Zongmin Zhang, Deqi Liang, Han Sun, Yule Liu, Yun Shen, Xiangshan Gao, Yilong Yang, Shuai Liu, Yutao Yue, Xinlei He,
- Abstract要約: スケーラブルなブラックボックスジェイルブレイクフレームワークであるGame-Theory Attack (GTA)を提案する。
GTAは攻撃者の安全に配慮したLLMに対するインタラクションを形式化する。
GTA は Deepseek-R1 などの LLM 上で95% 以上の ASR を達成することを示す。
- 参考スコア(独自算出の注目度): 29.861219638412578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As LLMs become more common, non-expert users can pose risks, prompting extensive research into jailbreak attacks. However, most existing black-box jailbreak attacks rely on hand-crafted heuristics or narrow search spaces, which limit scalability. Compared with prior attacks, we propose Game-Theory Attack (GTA), an scalable black-box jailbreak framework. Concretely, we formalize the attacker's interaction against safety-aligned LLMs as a finite-horizon, early-stoppable sequential stochastic game, and reparameterize the LLM's randomized outputs via quantal response. Building on this, we introduce a behavioral conjecture "template-over-safety flip": by reshaping the LLM's effective objective through game-theoretic scenarios, the originally safety preference may become maximizing scenario payoffs within the template, which weakens safety constraints in specific contexts. We validate this mechanism with classical game such as the disclosure variant of the Prisoner's Dilemma, and we further introduce an Attacker Agent that adaptively escalates pressure to increase the ASR. Experiments across multiple protocols and datasets show that GTA achieves over 95% ASR on LLMs such as Deepseek-R1, while maintaining efficiency. Ablations over components, decoding, multilingual settings, and the Agent's core model confirm effectiveness and generalization. Moreover, scenario scaling studies further establish scalability. GTA also attains high ASR on other game-theoretic scenarios, and one-shot LLM-generated variants that keep the model mechanism fixed while varying background achieve comparable ASR. Paired with a Harmful-Words Detection Agent that performs word-level insertions, GTA maintains high ASR while lowering detection under prompt-guard models. Beyond benchmarks, GTA jailbreaks real-world LLM applications and reports a longitudinal safety monitoring of popular HuggingFace LLMs.
- Abstract(参考訳): LLMがより一般的になるにつれて、非専門家のユーザはリスクを生じさせ、ジェイルブレイク攻撃に関する広範な研究を促す。
しかし、既存のブラックボックスのジェイルブレイク攻撃のほとんどは、スケーラビリティを制限する手作りのヒューリスティックや狭い検索スペースに依存している。
従来の攻撃と比較して,スケーラブルなブラックボックスジェイルブレイクフレームワークであるGame-Theory Attack (GTA)を提案する。
具体的には, LLM に対する攻撃者のインタラクションを, 有限水平, 早期停止可能な逐次確率ゲームとして定式化し, 量子応答により LLM のランダム化出力を再パラメータ化する。
ゲーム理論的なシナリオを通してLLMの効果的な目的を再構築することで、もともとの安全性の優先はテンプレート内のシナリオの支払いを最大化し、特定のコンテキストにおける安全性の制約を弱める可能性がある。
我々は、このメカニズムを、囚人のジレンマの開示変種のような古典的なゲームで検証し、さらに、ASRを増大させるために圧力を適応的にエスカレートするアタッカーエージェントを導入する。
複数のプロトコルとデータセットにわたる実験では、GTAが効率を維持しながらDeepseek-R1のようなLLM上で95%以上のASRを達成することが示されている。
コンポーネントに対するアブレーション、デコーディング、多言語設定、およびエージェントのコアモデルは、有効性と一般化を確認している。
さらに、シナリオスケーリングの研究はスケーラビリティをさらに確立します。
GTAは、他のゲーム理論のシナリオで高いASRを達成することができ、異なるバックグラウンドでモデルメカニズムを固定し続けるワンショットLLM生成の亜種は、同等のASRを達成する。
単語レベルの挿入を行うHarmful-Words Detection Agentを用いて、GTAはプロンプトガードモデルによる検出を低下させながら高いASRを維持している。
ベンチマーク以外にも、GTAjailbreakは現実世界のLLMアプリケーションを実行し、人気のあるHuggingFace LLMの縦方向の安全監視を報告している。
関連論文リスト
- An Interpretable N-gram Perplexity Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、あるジェイルブレイクがテキストの配布で起こりそうなかどうかをチェックします。
私たちはこの脅威モデルに人気のある攻撃を適応させ、これらの攻撃を同等の足場でベンチマークしました。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。
我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。
主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文 参考訳(メタデータ) (2024-10-11T17:39:22Z) - Towards Universal and Black-Box Query-Response Only Attack on LLMs with QROA [2.4578723416255754]
悪意ある命令に付加された相手の接尾辞を識別するブラックボックスジェイルブレイク手法であるQROAを紹介する。
既存のサフィックスベースのjailbreakアプローチとは異なり、QROAはモデルのロジットや他の内部情報へのアクセスを必要としない。
また,QROA-UNVは,個々のモデルに対する普遍的対角接尾辞を識別する拡張である。
論文 参考訳(メタデータ) (2024-06-04T07:27:36Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。