Fugu-MT 論文翻訳(概要): An attention-aware GNN-based input defender against multi-turn jailbreak on LLMs

論文の概要: An attention-aware GNN-based input defender against multi-turn jailbreak on LLMs

arxiv url: http://arxiv.org/abs/2507.07146v1
Date: Wed, 09 Jul 2025 07:55:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-11 16:40:15.144965
Title: An attention-aware GNN-based input defender against multi-turn jailbreak on LLMs
Title（参考訳）: LLMのマルチターンジェイルブレイクに対する注意深いGNNベースの入力ディフェンサ
Authors: Zixuan Huang, Kecheng Huang, Lihao Yin, Bowei He, Huiling Zhen, Mingxuan Yuan, Zili Shao,
Abstract要約: 大規模言語モデル(LLM)は広く普及し、様々なアプリケーションに統合されつつある。厳格な訓練と安全のための微調整にもかかわらず、LLMは脱獄攻撃に弱いままである。 G-Guardは、マルチターンジェイルブレイク攻撃を防御するための革新的な注意を意識したGNNベースの入力である。
参考スコア（独自算出の注目度）: 14.993549853203591
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have gained widespread popularity and are increasingly integrated into various applications. However, their capabilities can be exploited for both benign and harmful purposes. Despite rigorous training and fine-tuning for safety, LLMs remain vulnerable to jailbreak attacks. Recently, multi-turn attacks have emerged, exacerbating the issue. Unlike single-turn attacks, multi-turn attacks gradually escalate the dialogue, making them more difficult to detect and mitigate, even after they are identified. In this study, we propose G-Guard, an innovative attention-aware GNN-based input classifier designed to defend against multi-turn jailbreak attacks on LLMs. G-Guard constructs an entity graph for multi-turn queries, explicitly capturing relationships between harmful keywords and queries even when those keywords appear only in previous queries. Additionally, we introduce an attention-aware augmentation mechanism that retrieves the most similar single-turn query based on the multi-turn conversation. This retrieved query is treated as a labeled node in the graph, enhancing the ability of GNN to classify whether the current query is harmful. Evaluation results demonstrate that G-Guard outperforms all baselines across all datasets and evaluation metrics.
Abstract（参考訳）: 大規模言語モデル(LLM)は広く普及し、様々なアプリケーションに統合されつつある。しかし、その能力は良心と有害な目的の両方に利用することができる。厳格な訓練と安全のための微調整にもかかわらず、LLMは脱獄攻撃に弱いままである。近年、マルチターン攻撃が発生し、この問題が悪化している。シングルターン攻撃とは異なり、マルチターン攻撃は徐々に対話をエスカレートし、特定後も検出と緩和がより困難になる。本研究では,G-Guardを提案する。G-Guardは,LLMに対するマルチターンジェイルブレイク攻撃に対する防御を目的とした,革新的な注意喚起型入力分類器である。 G-Guardは、マルチターンクエリのためのエンティティグラフを構築し、これらのキーワードが以前のクエリにのみ現れる場合でも、有害なキーワードとクエリの関係を明示的にキャプチャする。さらに、マルチターン会話に基づいて、最もよく似たシングルターンクエリを検索するアテンション対応拡張機構を導入する。この検索されたクエリはグラフ内のラベル付きノードとして扱われ、GNNが現在のクエリが有害かどうかを分類する能力を高める。評価結果は、G-Guardがすべてのデータセットと評価指標ですべてのベースラインを上回っていることを示している。

関連論文リスト

JPS: Jailbreak Multimodal Large Language Models with Collaborative Visual Perturbation and Textual Steering [73.962469626788]
マルチモーダルな大規模言語モデル(MLLM)に対するジェイルブレイク攻撃は重要な研究課題である。 JPS, UnderlineJailbreak MLLMs with collaborative visual underlinePerturbation and textual underlineSteering。
論文参考訳（メタデータ） (2025-08-07T07:14:01Z)
Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文参考訳（メタデータ） (2025-05-23T08:13:59Z)
Alignment Under Pressure: The Case for Informed Adversaries When Evaluating LLM Defenses [6.736255552371404]
アライメント(Alignment)は、迅速な注射や脱獄といった攻撃を防御するために使われる主要なアプローチの1つである。グレディ・コーディネート・グラディエント(GCG)に対する攻撃成功率(ASR)の報告
論文参考訳（メタデータ） (2025-05-21T16:43:17Z)
SequentialBreak: Large Language Models Can be Fooled by Embedding Jailbreak Prompts into Sequential Prompt Chains [0.0]
本稿では,大規模言語モデル(LLM)の脆弱性を利用した新しいジェイルブレイク攻撃であるSequentialBreakを紹介する。問題バンク,ダイアログ補完,ゲーム環境などの事例に限らず,有害なプロンプトをLCMを騙して有害な応答を発生させる良質なプロンプトに埋め込む,いくつかのシナリオについて論じる。大規模な実験では、SequentialBreakは単一のクエリしか使用せず、攻撃成功率を大幅に向上することを示した。
論文参考訳（メタデータ） (2024-11-10T11:08:28Z)
Enhancing Adversarial Attacks through Chain of Thought [0.0]
勾配に基づく敵対的攻撃は、特に整列した大言語モデル(LLM)に対して有効である本稿では,CoTプロンプトとgreedy coordinate gradient (GCG)技術を統合することで,敵攻撃の普遍性を高めることを提案する。
論文参考訳（メタデータ） (2024-10-29T06:54:00Z)
Securing Multi-turn Conversational Language Models From Distributed Backdoor Triggers [29.554818890832887]
大規模言語モデル(LLM)は、長いコンテキスト長を処理し、テキストでニュアンスを理解する能力を獲得した。本稿では,LDMのマルチターン機能と強力な学習能力を利用してエンドユーザを害する脆弱性を明らかにする。本稿では, 応答列長を線形に拡張し, バックドアを0.35%まで小さくする復号時間ディフェンスを提案する。
論文参考訳（メタデータ） (2024-07-04T20:57:06Z)
TrojanRAG: Retrieval-Augmented Generation Can Be Backdoor Driver in Large Language Models [16.71019302192829]
大規模言語モデル(LLM)は、自然言語処理(NLP)において顕著なパフォーマンスにもかかわらず、潜在的なセキュリティ脅威に対する懸念を提起している。バックドア攻撃は当初、LLMがあらゆる段階で重大な損害を受けていることを証明したが、コストとロバスト性は批判されている。本稿では,Retrieval-Augmented Generationにおいて,共同でバックドア攻撃を行うTrojanRAGを提案する。
論文参考訳（メタデータ） (2024-05-22T07:21:32Z)
Defending Large Language Models against Jailbreak Attacks via Semantic Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文参考訳（メタデータ） (2024-02-25T20:36:03Z)
Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。 LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文参考訳（メタデータ） (2024-02-21T18:59:13Z)
SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文参考訳（メタデータ） (2023-10-05T17:01:53Z)
Universal and Transferable Adversarial Attacks on Aligned Language Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文参考訳（メタデータ） (2023-07-27T17:49:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。