論文の概要: An attention-aware GNN-based input defender against multi-turn jailbreak on LLMs
- arxiv url: http://arxiv.org/abs/2507.07146v1
- Date: Wed, 09 Jul 2025 07:55:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.144965
- Title: An attention-aware GNN-based input defender against multi-turn jailbreak on LLMs
- Title(参考訳): LLMのマルチターンジェイルブレイクに対する注意深いGNNベースの入力ディフェンサ
- Authors: Zixuan Huang, Kecheng Huang, Lihao Yin, Bowei He, Huiling Zhen, Mingxuan Yuan, Zili Shao,
- Abstract要約: 大規模言語モデル(LLM)は広く普及し、様々なアプリケーションに統合されつつある。
厳格な訓練と安全のための微調整にもかかわらず、LLMは脱獄攻撃に弱いままである。
G-Guardは、マルチターンジェイルブレイク攻撃を防御するための革新的な注意を意識したGNNベースの入力である。
- 参考スコア(独自算出の注目度): 14.993549853203591
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have gained widespread popularity and are increasingly integrated into various applications. However, their capabilities can be exploited for both benign and harmful purposes. Despite rigorous training and fine-tuning for safety, LLMs remain vulnerable to jailbreak attacks. Recently, multi-turn attacks have emerged, exacerbating the issue. Unlike single-turn attacks, multi-turn attacks gradually escalate the dialogue, making them more difficult to detect and mitigate, even after they are identified. In this study, we propose G-Guard, an innovative attention-aware GNN-based input classifier designed to defend against multi-turn jailbreak attacks on LLMs. G-Guard constructs an entity graph for multi-turn queries, explicitly capturing relationships between harmful keywords and queries even when those keywords appear only in previous queries. Additionally, we introduce an attention-aware augmentation mechanism that retrieves the most similar single-turn query based on the multi-turn conversation. This retrieved query is treated as a labeled node in the graph, enhancing the ability of GNN to classify whether the current query is harmful. Evaluation results demonstrate that G-Guard outperforms all baselines across all datasets and evaluation metrics.
- Abstract(参考訳): 大規模言語モデル(LLM)は広く普及し、様々なアプリケーションに統合されつつある。
しかし、その能力は良心と有害な目的の両方に利用することができる。
厳格な訓練と安全のための微調整にもかかわらず、LLMは脱獄攻撃に弱いままである。
近年、マルチターン攻撃が発生し、この問題が悪化している。
シングルターン攻撃とは異なり、マルチターン攻撃は徐々に対話をエスカレートし、特定後も検出と緩和がより困難になる。
本研究では,G-Guardを提案する。G-Guardは,LLMに対するマルチターンジェイルブレイク攻撃に対する防御を目的とした,革新的な注意喚起型入力分類器である。
G-Guardは、マルチターンクエリのためのエンティティグラフを構築し、これらのキーワードが以前のクエリにのみ現れる場合でも、有害なキーワードとクエリの関係を明示的にキャプチャする。
さらに、マルチターン会話に基づいて、最もよく似たシングルターンクエリを検索するアテンション対応拡張機構を導入する。
この検索されたクエリはグラフ内のラベル付きノードとして扱われ、GNNが現在のクエリが有害かどうかを分類する能力を高める。
評価結果は、G-Guardがすべてのデータセットと評価指標ですべてのベースラインを上回っていることを示している。
関連論文リスト
- Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。
近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。
脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - SequentialBreak: Large Language Models Can be Fooled by Embedding Jailbreak Prompts into Sequential Prompt Chains [0.0]
本稿では,大規模言語モデル(LLM)の脆弱性を利用した新しいジェイルブレイク攻撃であるSequentialBreakを紹介する。
問題バンク,ダイアログ補完,ゲーム環境などの事例に限らず,有害なプロンプトをLCMを騙して有害な応答を発生させる良質なプロンプトに埋め込む,いくつかのシナリオについて論じる。
大規模な実験では、SequentialBreakは単一のクエリしか使用せず、攻撃成功率を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-11-10T11:08:28Z) - Securing Multi-turn Conversational Language Models From Distributed Backdoor Triggers [29.554818890832887]
大規模言語モデル(LLM)は、長いコンテキスト長を処理し、テキストでニュアンスを理解する能力を獲得した。
本稿では,LDMのマルチターン機能と強力な学習能力を利用してエンドユーザを害する脆弱性を明らかにする。
本稿では, 応答列長を線形に拡張し, バックドアを0.35%まで小さくする復号時間ディフェンスを提案する。
論文 参考訳(メタデータ) (2024-07-04T20:57:06Z) - TrojanRAG: Retrieval-Augmented Generation Can Be Backdoor Driver in Large Language Models [16.71019302192829]
大規模言語モデル(LLM)は、自然言語処理(NLP)において顕著なパフォーマンスにもかかわらず、潜在的なセキュリティ脅威に対する懸念を提起している。
バックドア攻撃は当初、LLMがあらゆる段階で重大な損害を受けていることを証明したが、コストとロバスト性は批判されている。
本稿では,Retrieval-Augmented Generationにおいて,共同でバックドア攻撃を行うTrojanRAGを提案する。
論文 参考訳(メタデータ) (2024-05-22T07:21:32Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。