論文の概要: GuardNet: Graph-Attention Filtering for Jailbreak Defense in Large Language Models
- arxiv url: http://arxiv.org/abs/2509.23037v1
- Date: Sat, 27 Sep 2025 01:21:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.996866
- Title: GuardNet: Graph-Attention Filtering for Jailbreak Defense in Large Language Models
- Title(参考訳): GuardNet: 大規模言語モデルにおける脱獄防御のためのグラフ注意フィルタ
- Authors: Javad Forough, Mohammad Maheri, Hamed Haddadi,
- Abstract要約: 大規模言語モデル(LLM)は、ジェイルブレイク攻撃の影響を受けやすくなっている。
これらの攻撃はLLM出力の安全性、信頼性、信頼性を損なう。
推論に先立ってjailbreakプロンプトを検出しフィルタする階層的なフィルタリングフレームワークであるGuardNetを提案する。
- 参考スコア(独自算出の注目度): 5.550877102788988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly susceptible to jailbreak attacks, which are adversarial prompts that bypass alignment constraints and induce unauthorized or harmful behaviors. These vulnerabilities undermine the safety, reliability, and trustworthiness of LLM outputs, posing critical risks in domains such as healthcare, finance, and legal compliance. In this paper, we propose GuardNet, a hierarchical filtering framework that detects and filters jailbreak prompts prior to inference. GuardNet constructs structured graphs that combine sequential links, syntactic dependencies, and attention-derived token relations to capture both linguistic structure and contextual patterns indicative of jailbreak behavior. It then applies graph neural networks at two levels: (i) a prompt-level filter that detects global adversarial prompts, and (ii) a token-level filter that pinpoints fine-grained adversarial spans. Extensive experiments across three datasets and multiple attack settings show that GuardNet substantially outperforms prior defenses. It raises prompt-level F$_1$ scores from 66.4\% to 99.8\% on LLM-Fuzzer, and from 67-79\% to over 94\% on PLeak datasets. At the token level, GuardNet improves F$_1$ from 48-75\% to 74-91\%, with IoU gains up to +28\%. Despite its structural complexity, GuardNet maintains acceptable latency and generalizes well in cross-domain evaluations, making it a practical and robust defense against jailbreak threats in real-world LLM deployments.
- Abstract(参考訳): 大規模言語モデル(LLM)は、アライメント制約を回避し、無許可または有害な振る舞いを誘発する敵対的なプロンプトであるジェイルブレイク攻撃の影響を受けやすくなっている。
これらの脆弱性は、LLM出力の安全性、信頼性、信頼性を損なうものであり、医療、金融、法的コンプライアンスといった領域において重大なリスクを生じさせる。
本稿では,推論に先立ってjailbreakプロンプトを検出しフィルタする階層的なフィルタリングフレームワークであるGuardNetを提案する。
GuardNetは、連続的なリンク、構文的依存関係、注意由来のトークン関係を組み合わせた構造化グラフを構築し、ジェイルブレイクの振る舞いを示す言語構造とコンテキストパターンの両方をキャプチャする。
次にグラフニューラルネットワークを2つのレベルで適用します。
(i)大域的対向的プロンプトを検出するプロンプトレベルフィルタ、及び
(ii) きめ細かい逆幅をピンポイントするトークンレベルのフィルタ。
3つのデータセットと複数のアタック設定にわたる大規模な実験は、GuardianNetが以前のディフェンスを大幅に上回っていることを示している。
プロンプトレベルのF$_1$スコアは、LLM-Fuzzerでは66.4\%から99.8\%、PLeakデータセットでは67-79\%から94\%に上昇する。
トークンレベルでは、GuardNetはF$_1$を48-75\%から74-91\%に改善し、IoUは+28\%まで上昇する。
構造的な複雑さにもかかわらず、GuardNetは許容レイテンシを保ち、ドメイン間の評価でうまく一般化し、現実のLLMデプロイメントにおけるジェイルブレイクの脅威に対する実用的で堅牢な防御となる。
関連論文リスト
- Breaking Obfuscation: Cluster-Aware Graph with LLM-Aided Recovery for Malicious JavaScript Detection [9.83040332336481]
悪意あるJavaScriptコードは、ユーザのプライバシ、システム整合性、エンタープライズセキュリティに重大な脅威をもたらす。
大規模言語モデル(LLM)に基づく難読化とコードグラフ学習を組み合わせたハイブリッドディフェンスフレームワークであるDeCodaを提案する。
論文 参考訳(メタデータ) (2025-07-30T07:46:49Z) - An attention-aware GNN-based input defender against multi-turn jailbreak on LLMs [14.993549853203591]
大規模言語モデル(LLM)は広く普及し、様々なアプリケーションに統合されつつある。
厳格な訓練と安全のための微調整にもかかわらず、LLMは脱獄攻撃に弱いままである。
G-Guardは、マルチターンジェイルブレイク攻撃を防御するための革新的な注意を意識したGNNベースの入力である。
論文 参考訳(メタデータ) (2025-07-09T07:55:03Z) - Graph of Attacks: Improved Black-Box and Interpretable Jailbreaks for LLMs [21.258254924259678]
本稿では,大規模言語モデルのロバスト性をテストするために,敵対的プロンプトを生成する手法であるグラフ・オブ・ATtacks (GoAT)を提案する。
GoATは、最先端の攻撃よりも犠牲者モデルに対するクエリが少なく、非常に効果的なジェイルブレイクプロンプトを生成するのに優れています。
GoATの推論はより複雑なグラフ構造に基づいている。
論文 参考訳(メタデータ) (2025-04-26T21:06:03Z) - Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [55.253208152184065]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。
我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。
安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文 参考訳(メタデータ) (2024-12-22T14:18:39Z) - HSF: Defending against Jailbreak Attacks with Hidden State Filtering [14.031010511732008]
隠れ状態フィルタ(HSF)に基づくジェイルブレイク攻撃防御戦略を提案する。
HSFは、推論プロセスが始まる前に、モデルが相手の入力をプリエンプティブに識別し、拒否することを可能にする。
不正なユーザクエリに対する応答を最小限に抑えながら、Jailbreak攻撃の成功率を大幅に低下させる。
論文 参考訳(メタデータ) (2024-08-31T06:50:07Z) - h4rm3l: A language for Composable Jailbreak Attack Synthesis [48.5611060845958]
h4rm3lは、人間が読めるドメイン固有言語とのギャップに対処する新しいアプローチである。
我々は、h4rm3lの合成攻撃は、文献における既存のジェイルブレイク攻撃よりも多様で、より成功していることを示す。
論文 参考訳(メタデータ) (2024-08-09T01:45:39Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。