論文の概要: SoK: a Comprehensive Causality Analysis Framework for Large Language Model Security
- arxiv url: http://arxiv.org/abs/2512.04841v1
- Date: Thu, 04 Dec 2025 14:25:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.216043
- Title: SoK: a Comprehensive Causality Analysis Framework for Large Language Model Security
- Title(参考訳): SoK:大規模言語モデルセキュリティのための包括的因果分析フレームワーク
- Authors: Wei Zhao, Zhe Li, Jun Sun,
- Abstract要約: 大きな言語モデル(LLM)は優れた能力を示すが、ジェイルブレイクのような敵の操作には弱いままである。
LLMにおけるすべてのレベルの因果関係調査を支援する統一因果関係解析フレームワークを導入する。
我々は、複数のオープンウェイトモデルと、ジェイルブレイクを含む安全クリティカルなベンチマークに関するフレームワークを実証的に評価する。
- 参考スコア(独自算出の注目度): 9.26421208894097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) exhibit remarkable capabilities but remain vulnerable to adversarial manipulations such as jailbreaking, where crafted prompts bypass safety mechanisms. Understanding the causal factors behind such vulnerabilities is essential for building reliable defenses. In this work, we introduce a unified causality analysis framework that systematically supports all levels of causal investigation in LLMs, ranging from token-level, neuron-level, and layer-level interventions to representation-level analysis. The framework enables consistent experimentation and comparison across diverse causality-based attack and defense methods. Accompanying this implementation, we provide the first comprehensive survey of causality-driven jailbreak studies and empirically evaluate the framework on multiple open-weight models and safety-critical benchmarks including jailbreaks, hallucination detection, backdoor identification, and fairness evaluation. Our results reveal that: (1) targeted interventions on causally critical components can reliably modify safety behavior; (2) safety-related mechanisms are highly localized (i.e., concentrated in early-to-middle layers with only 1--2\% of neurons exhibiting causal influence); and (3) causal features extracted from our framework achieve over 95\% detection accuracy across multiple threat types. By bridging theoretical causality analysis and practical model safety, our framework establishes a reproducible foundation for research on causality-based attacks, interpretability, and robust attack detection and mitigation in LLMs. Code is available at https://github.com/Amadeuszhao/SOK_Casuality.
- Abstract(参考訳): 大きな言語モデル(LLM)は優れた能力を示すが、ジェイルブレイクのような敵の操作に弱いままであり、安全メカニズムをバイパスする。
このような脆弱性の背後にある因果的要因を理解することは、信頼できる防御を構築する上で不可欠である。
本研究では、トークンレベル、ニューロンレベル、層レベルの介入から表現レベル分析まで、LLMにおけるすべてのレベルの因果調査を体系的に支援する統一因果分析フレームワークを導入する。
このフレームワークは、多様な因果関係に基づく攻撃および防御方法に対して、一貫した実験と比較を可能にする。
この実装を伴い、因果性駆動型ジェイルブレイク研究の最初の総合的な調査を行い、ジェイルブレイク、幻覚検出、バックドア識別、フェアネス評価を含む複数のオープンウェイトモデルおよび安全クリティカルベンチマークのフレームワークを実証的に評価する。
その結果,(1) 因果的重要成分に対する標的的介入は安全行動を確実に修正しうること,(2) 安全性関連メカニズムは高度に局所化されていること,(2) 因果的影響を示すニューロンの1~22%にのみ集中していること,(3) フレームワークから抽出した因果的特徴が,複数の脅威タイプで95%以上の検出精度を達成できること,などが判明した。
理論的因果関係解析と実用モデル安全性を橋渡しすることにより,LLMにおける因果関係に基づく攻撃,解釈可能性,堅牢な攻撃検出・緩和に関する研究のための再現可能な基盤を確立する。
コードはhttps://github.com/Amadeuszhao/SOK_Casuality.comで入手できる。
関連論文リスト
- DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [64.32925552574115]
ARMORは、jailbreak戦略を分析し、コアインテントを抽出する、大規模な言語モデルである。
ARMORは最先端の安全性能を達成し、平均有害率は0.002であり、高度な最適化ベースのジェイルブレイクに対する攻撃成功率は0.06である。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - It Only Gets Worse: Revisiting DL-Based Vulnerability Detectors from a Practical Perspective [14.271145160443462]
VulTegraは、脆弱性検出のためのスクラッチトレーニングされたDLモデルと事前トレーニングされたDLモデルを比較する。
最先端のSOTA(State-of-the-art)検出器は、依然として低い一貫性、限られた現実世界能力、スケーラビリティの課題に悩まされている。
論文 参考訳(メタデータ) (2025-07-13T08:02:56Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。
特定のシナリオは、25倍の攻撃率を被る。
MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文 参考訳(メタデータ) (2025-04-09T06:53:23Z) - Understanding the Effectiveness of Coverage Criteria for Large Language Models: A Special Angle from Jailbreak Attacks [10.909463767558023]
大規模言語モデル(LLM)は人工知能に革命をもたらしたが、重要なドメインにまたがるデプロイメントは、悪意のある攻撃に直面した際の異常な振る舞いを懸念している。
本稿では,このような不確実性を特定する上で,従来のカバレッジ基準の有効性を評価するための総合的な実証的研究を行う。
我々は、クエリを正規またはジェイルブレイクとして分類する際の高精度(平均93.61%)を実現するリアルタイムジェイルブレイク検出機構を開発した。
論文 参考訳(メタデータ) (2024-08-27T17:14:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。