論文の概要: Graph of Attacks: Improved Black-Box and Interpretable Jailbreaks for LLMs
- arxiv url: http://arxiv.org/abs/2504.19019v1
- Date: Sat, 26 Apr 2025 21:06:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.092155
- Title: Graph of Attacks: Improved Black-Box and Interpretable Jailbreaks for LLMs
- Title(参考訳): 攻撃のグラフ: LLMのブラックボックスと解釈可能なジェイルブレイクの改善
- Authors: Mohammad Akbar-Tajari, Mohammad Taher Pilehvar, Mohammad Mahmoody,
- Abstract要約: 本稿では,大規模言語モデルのロバスト性をテストするために,敵対的プロンプトを生成する手法であるグラフ・オブ・ATtacks (GoAT)を提案する。
GoATは、最先端の攻撃よりも犠牲者モデルに対するクエリが少なく、非常に効果的なジェイルブレイクプロンプトを生成するのに優れています。
GoATの推論はより複雑なグラフ構造に基づいている。
- 参考スコア(独自算出の注目度): 21.258254924259678
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The challenge of ensuring Large Language Models (LLMs) align with societal standards is of increasing interest, as these models are still prone to adversarial jailbreaks that bypass their safety mechanisms. Identifying these vulnerabilities is crucial for enhancing the robustness of LLMs against such exploits. We propose Graph of ATtacks (GoAT), a method for generating adversarial prompts to test the robustness of LLM alignment using the Graph of Thoughts framework [Besta et al., 2024]. GoAT excels at generating highly effective jailbreak prompts with fewer queries to the victim model than state-of-the-art attacks, achieving up to five times better jailbreak success rate against robust models like Llama. Notably, GoAT creates high-quality, human-readable prompts without requiring access to the targeted model's parameters, making it a black-box attack. Unlike approaches constrained by tree-based reasoning, GoAT's reasoning is based on a more intricate graph structure. By making simultaneous attack paths aware of each other's progress, this dynamic framework allows a deeper integration and refinement of reasoning paths, significantly enhancing the collaborative exploration of adversarial vulnerabilities in LLMs. At a technical level, GoAT starts with a graph structure and iteratively refines it by combining and improving thoughts, enabling synergy between different thought paths. The code for our implementation can be found at: https://github.com/GoAT-pydev/Graph_of_Attacks.
- Abstract(参考訳): 大規模言語モデル(LLM)と社会標準との整合性を確保するという課題は、これらのモデルが依然として彼らの安全メカニズムをバイパスする敵のジェイルブレイクの傾向にあるため、関心の高まりである。
これらの脆弱性の特定は、このようなエクスプロイトに対するLSMの堅牢性を高めるために不可欠である。
We propose Graph of ATtacks (GoAT), a method for adversarial prompts to test the robustness of LLM alignment using the Graph of Thoughts framework [Besta et al , 2024]。
GoATは、最先端の攻撃よりも犠牲者モデルへのクエリが少なく、非常に効果的なジェイルブレイクプロンプトを生成するのに優れており、Llamaのような堅牢なモデルに対して最大5倍のジェイルブレイク成功率を達成することができる。
特に、GoATはターゲットモデルのパラメータにアクセスすることなく、高品質で可読なプロンプトを生成するため、ブラックボックス攻撃となる。
木に基づく推論によって制約されたアプローチとは異なり、GoATの推論はより複雑なグラフ構造に基づいている。
同時攻撃経路を互いの進行を認識させることにより、この動的フレームワークは推論経路のより深い統合と洗練を可能にし、LLMにおける敵の脆弱性の協調的な探索を大幅に強化する。
技術的なレベルでは、GoATはグラフ構造から始まり、思考を組み合わせて改善することで反復的にそれを洗練し、異なる思考経路間のシナジーを可能にします。
実装のコードは、https://github.com/GoAT-pydev/Graph_of_Attacks.comで確認できます。
関連論文リスト
- xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。
我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - Securing Vision-Language Models with a Robust Encoder Against Jailbreak and Adversarial Attacks [0.0]
LVLM(Large Vision-Language Models)は、視覚言語タスクに優れたAIである。
ジェイルブレイクは安全プロトコルをバイパスし、モデルが誤解を招くまたは有害な応答を発生させる。
シームズアーキテクチャを利用してCLIPビジョンエンコーダを逆さまに微調整する新しい防御機構であるSim-CLIP+を提案する。
論文 参考訳(メタデータ) (2024-09-11T15:39:42Z) - h4rm3l: A language for Composable Jailbreak Attack Synthesis [48.5611060845958]
h4rm3lは、人間が読めるドメイン固有言語とのギャップに対処する新しいアプローチである。
我々は、h4rm3lの合成攻撃は、文献における既存のジェイルブレイク攻撃よりも多様で、より成功していることを示す。
論文 参考訳(メタデータ) (2024-08-09T01:45:39Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - Improved Techniques for Optimization-Based Jailbreaking on Large Language Models [78.32176751215073]
Greedy Coordinate Gradient (GCG)攻撃の成功は、最適化ベースのジェイルブレイク技術の研究への関心が高まっている。
我々はGCGのような最適化ベースのジェイルブレイクにいくつかの改良(経験的)技術を提案する。
以上の結果から,GCGが最先端のジェイルブレイク攻撃より優れ,100%近い攻撃成功率を達成できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-31T17:07:15Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。