論文の概要: EnsembleSHAP: Faithful and Certifiably Robust Attribution for Random Subspace Method
- arxiv url: http://arxiv.org/abs/2603.30034v1
- Date: Tue, 31 Mar 2026 17:30:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.956369
- Title: EnsembleSHAP: Faithful and Certifiably Robust Attribution for Random Subspace Method
- Title(参考訳): EnsembleSHAP:ランダム部分空間法に対する忠実で好ましくないロバストな属性
- Authors: Yanting Wang, Jinyuan Jia,
- Abstract要約: 本稿では,その計算副産物を再利用するランダム部分空間法に対する本質的に忠実でセキュアな特徴属性を提案する。
我々の知る限りでは、これは説明保存攻撃に対する証明可能な堅牢性を確立するための最初の試みである。
また, バックドア攻撃, 敵攻撃, 脱獄攻撃など, 異なる経験的攻撃に直面した場合に, 説明の有効性を総合的に評価する。
- 参考スコア(独自算出の注目度): 20.424428823975884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Random subspace method has wide security applications such as providing certified defenses against adversarial and backdoor attacks, and building robustly aligned LLM against jailbreaking attacks. However, the explanation of random subspace method lacks sufficient exploration. Existing state-of-the-art feature attribution methods, such as Shapley value and LIME, are computationally impractical and lacks security guarantee when applied to random subspace method. In this work, we propose EnsembleSHAP, an intrinsically faithful and secure feature attribution for random subspace method that reuses its computational byproducts. Specifically, our feature attribution method is 1) computationally efficient, 2) maintains essential properties of effective feature attribution (such as local accuracy), and 3) offers guaranteed protection against privacy-preserving attacks on feature attribution methods. To the best of our knowledge, this is the first work to establish provable robustness against explanation-preserving attacks. We also perform comprehensive evaluations for our explanation's effectiveness when faced with different empirical attacks, including backdoor attacks, adversarial attacks, and jailbreak attacks. The code is at https://github.com/Wang-Yanting/EnsembleSHAP. WARNING: This document may include content that could be considered harmful.
- Abstract(参考訳): ランダムサブスペース法は、敵の攻撃やバックドア攻撃に対する認証された防御を提供することや、脱獄攻撃に対する堅牢に整列したLLMの構築など、幅広いセキュリティ応用がある。
しかし、ランダム部分空間法の説明には十分な探索が欠けている。
シェープリー値やLIMEのような既存の最先端特徴属性法は計算的に非現実的であり、ランダムな部分空間法に適用した場合のセキュリティ保証が欠如している。
本研究では,その計算副産物を再利用するランダム部分空間法に対する本質的に忠実でセキュアな特徴属性であるEnsembleSHAPを提案する。
具体的には,特徴属性法について述べる。
1)計算効率
2)有効特徴属性(局所的精度など)の本質的特性を維持し、
3) 機能属性メソッドに対するプライバシー保護攻撃に対する保証された保護を提供する。
我々の知る限りでは、これは説明保存攻撃に対する証明可能な堅牢性を確立するための最初の試みである。
また, バックドア攻撃, 敵攻撃, 脱獄攻撃など, 異なる経験的攻撃に直面した場合に, 説明の有効性を総合的に評価する。
コードはhttps://github.com/Wang-Yanting/EnsembleSHAPにある。
WARNING: この文書には有害と思われるコンテンツが含まれているかもしれません。
関連論文リスト
- Attributing and Exploiting Safety Vectors through Global Optimization in Large Language Models [50.91504059485288]
本報告では,全頭部のグローバルな最適化により,安全クリティカルな注意点を同時に識別するフレームワークを提案する。
我々は,アクティベーション・リマッチによって同定された安全ベクトルを利用する,新しい推論時ホワイトボックス・ジェイルブレイク法を開発した。
論文 参考訳(メタデータ) (2026-01-22T09:32:43Z) - Safety Subspaces are Not Linearly Distinct: A Fine-Tuning Case Study [10.17362679822278]
大規模言語モデルは社会的に許容できる応答を生成するために安全アライメントに依存している。
増大する作業体は、アライメントが重量空間における識別可能な方向に対応する可能性があることを示唆している。
安全性はモデルの一般的な学習要素と強く結びついていることが示される。
論文 参考訳(メタデータ) (2025-05-20T10:41:49Z) - The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
Vision Large Language Models(VLLMs)のジェイルブレイク攻撃に対する脆弱性は、驚くにあたらない。
これらの攻撃に対する最近の防御機構は、ベンチマーク評価においてほぼ飽和状態に達している。
論文 参考訳(メタデータ) (2024-11-13T07:57:19Z) - Robustness of Practical Perceptual Hashing Algorithms to Hash-Evasion and Hash-Inversion Attacks [1.9186789478340778]
本稿では、広く利用されている3つのPHA(PhotoDNA、PDQ、NeuralHash)のハッシュ回避およびハッシュ反転攻撃に対する安全性を評価する。
これらの異なる結果について説明し、本質的なロバスト性は、PHAのランダムなハッシュ変動特性に部分的に起因していることを強調する。
論文 参考訳(メタデータ) (2024-06-03T01:04:50Z) - Certified Adversarial Robustness of Machine Learning-based Malware Detectors via (De)Randomized Smoothing [9.881799766856476]
我々は,特定の実行可能および逆パッチサイズに対して,敵EXEmpleが存在しないことを保証する,パッチ攻撃に対する認証可能な防御を導入する。
提案手法は, 決定論的ロバスト性証明を提供する (de)randomized smoothing に着想を得たものである。
その結果,本手法は,強いコンテンツ挿入攻撃に対する不整合性を示し,ランダムなスムースティングに基づく防御性能に優れていた。
論文 参考訳(メタデータ) (2024-05-01T08:45:57Z) - Certifying LLM Safety against Adversarial Prompting [70.96868018621167]
大規模言語モデル(LLM)は、入力プロンプトに悪意のあるトークンを追加する敵攻撃に対して脆弱である。
我々は,認証された安全保証とともに,敵のプロンプトを防御する最初の枠組みである消去・チェックを導入する。
論文 参考訳(メタデータ) (2023-09-06T04:37:20Z) - Measuring Equality in Machine Learning Security Defenses: A Case Study
in Speech Recognition [56.69875958980474]
この研究は、学習したシステムを守るためのアプローチと、異なるサブ人口間でのセキュリティ防衛がパフォーマンス上の不平等をもたらす方法を検討する。
提案された多くの手法は、虚偽の拒絶やロバストネストレーニングの不平等といった直接的な害を引き起こす可能性がある。
本稿では, ランダム化スムースメントとニューラルリジェクションの2つの防御法の比較を行い, マイノリティ集団のサンプリング機構により, ランダム化スムースメントがより公平であることを見出した。
論文 参考訳(メタデータ) (2023-02-17T16:19:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。