論文の概要: KG-DF: A Black-box Defense Framework against Jailbreak Attacks Based on Knowledge Graphs
- arxiv url: http://arxiv.org/abs/2511.07480v1
- Date: Wed, 12 Nov 2025 01:01:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.354229
- Title: KG-DF: A Black-box Defense Framework against Jailbreak Attacks Based on Knowledge Graphs
- Title(参考訳): KG-DF:知識グラフに基づく脱獄攻撃に対するブラックボックス防御フレームワーク
- Authors: Shuyuan Liu, Jiawei Chen, Xiao Yang, Hang Su, Zhaoxia Yin,
- Abstract要約: 大規模言語モデル(LLM)のための知識グラフ防衛フレームワーク(KG-DF)を提案する。
構造化された知識表現とセマンティックアソシエーション機能により、知識ベースで安全な知識と入力コンテンツを関連付けることで、知識グラフ(KG)を検索することができる。
セマンティック解析モジュールを導入し、その中核となるタスクは、入力クエリを構造化された安全な概念表現の集合に変換することである。
- 参考スコア(独自算出の注目度): 22.335638814557004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the widespread application of large language models (LLMs) in various fields, the security challenges they face have become increasingly prominent, especially the issue of jailbreak. These attacks induce the model to generate erroneous or uncontrolled outputs through crafted inputs, threatening the generality and security of the model. Although existing defense methods have shown some effectiveness, they often struggle to strike a balance between model generality and security. Excessive defense may limit the normal use of the model, while insufficient defense may lead to security vulnerabilities. In response to this problem, we propose a Knowledge Graph Defense Framework (KG-DF). Specifically, because of its structured knowledge representation and semantic association capabilities, Knowledge Graph(KG) can be searched by associating input content with safe knowledge in the knowledge base, thus identifying potentially harmful intentions and providing safe reasoning paths. However, traditional KG methods encounter significant challenges in keyword extraction, particularly when confronted with diverse and evolving attack strategies. To address this issue, we introduce an extensible semantic parsing module, whose core task is to transform the input query into a set of structured and secure concept representations, thereby enhancing the relevance of the matching process. Experimental results show that our framework enhances defense performance against various jailbreak attack methods, while also improving the response quality of the LLM in general QA scenarios by incorporating domain-general knowledge.
- Abstract(参考訳): さまざまな分野で大規模言語モデル(LLM)が広く採用されるにつれ、彼らが直面するセキュリティ上の課題、特に脱獄の問題はますます顕著になっている。
これらの攻撃は、製造された入力を通じて間違ったまたは制御されていない出力を生成するようモデルに誘導し、モデルの汎用性とセキュリティを脅かす。
既存の防衛方法はいくつかの効果を示してきたが、それらはしばしばモデルの汎用性とセキュリティのバランスをとるのに苦労している。
過剰な防御はモデルの通常の使用を制限する可能性があるが、防御の不十分はセキュリティ上の脆弱性を引き起こす可能性がある。
この問題に対して,我々は知識グラフ防衛フレームワーク(KG-DF)を提案する。
具体的には、その構造化された知識表現とセマンティックアソシエーション能力により、知識ベースにおいて、入力コンテンツと安全な知識を関連付けることにより、潜在的に有害な意図を識別し、安全な推論パスを提供することによって、知識グラフ(KG)を探索することができる。
しかし、従来のKG手法は、特に多様で進化する攻撃戦略に直面している場合、キーワード抽出において重大な課題に直面している。
この問題に対処するために、我々は、入力クエリを構造化されたセキュアな概念表現のセットに変換することが中心となる拡張可能なセマンティック解析モジュールを導入し、マッチングプロセスの関連性を高める。
実験結果から,本フレームワークは様々なジェイルブレイク攻撃手法に対する防御性能を向上させるとともに,一般のQAシナリオにおけるLLMの応答品質を向上させるとともに,ドメイン・ジェネラル・ナレッジを取り入れた。
関連論文リスト
- Countermind: A Multi-Layered Security Architecture for Large Language Models [0.0]
本稿では,多層型セキュリティアーキテクチャであるCountermindを提案する。
アーキテクチャは、すべての入力を構造的に検証し変換するように設計された強化された周辺装置と、出力が発生する前にモデルのセマンティック処理経路を制約する内部ガバナンス機構を提案する。
論文 参考訳(メタデータ) (2025-10-13T18:41:18Z) - Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - Attention-Aware GNN-based Input Defense against Multi-Turn LLM Jailbreak [26.722533991614792]
大規模言語モデル(LLM)は様々なアプリケーションで大きな注目を集めているが、その能力は建設的かつ悪意のあるエクスプロイトのリスクをもたらす。
近年、マルチターン攻撃の出現により、この脆弱性が強化されている。
本稿では,G-Guardを紹介した。G-Guardは,マルチターン・ジェイルブレイク攻撃に対する防御に特化して設計された,GNNベースの入力分類器である。
論文 参考訳(メタデータ) (2025-07-09T07:55:03Z) - Breaking the Ceiling: Exploring the Potential of Jailbreak Attacks through Expanding Strategy Space [32.144633825924345]
大きな言語モデル(LLM)は、安全プロトコルをバイパスするジェイルブレイク攻撃など、多くの安全リスクに悩まされている。
我々は,脱獄戦略を,ELM理論に基づく重要な構成要素に分解する新しい枠組みを開発する。
従来の手法が完全に失敗するClaude-3.5で90%以上の成功率を達成した。
論文 参考訳(メタデータ) (2025-05-27T14:48:44Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - Tit-for-Tat: Safeguarding Large Vision-Language Models Against Jailbreak Attacks via Adversarial Defense [90.71884758066042]
大きな視覚言語モデル(LVLM)は、視覚入力による悪意のある攻撃に対する感受性という、ユニークな脆弱性を導入している。
本稿では,脆弱性発生源からアクティブ防衛機構へ視覚空間を変換するための新しい手法であるESIIIを提案する。
論文 参考訳(メタデータ) (2025-03-14T17:39:45Z) - Reformulation is All You Need: Addressing Malicious Text Features in DNNs [53.45564571192014]
本稿では,敵攻撃とバックドア攻撃の両方に対して有効な,統一的かつ適応的な防御フレームワークを提案する。
我々のフレームワークは、様々な悪意あるテキスト機能において、既存のサンプル指向の防御基準よりも優れています。
論文 参考訳(メタデータ) (2025-02-02T03:39:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。