論文の概要: When Interpretability Becomes a Liability: Adversarial Attacks on CBM Concept Layers
- arxiv url: http://arxiv.org/abs/2605.25304v1
- Date: Mon, 25 May 2026 00:03:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.130924
- Title: When Interpretability Becomes a Liability: Adversarial Attacks on CBM Concept Layers
- Title(参考訳): 解釈可能性が責任になるとき--CBMの概念層に対する敵対的攻撃
- Authors: Aditya Sridhar,
- Abstract要約: 概念ボトルネックモデル(Concept Bottleneck Models、CBM)は、解釈可能な機械学習の基盤となるアプローチとして登場した。
CBMにおける概念レベルの敵対的脆弱性を包括的かつ体系的に研究する。
我々は、安定原理の正規化防衛であるSPECTRAを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Concept Bottleneck Models (CBMs) have emerged as a cornerstone approach for interpretable machine learning, providing human-understandable intermediate representations through explicit concept activations. However, this interpretability fundamentally introduces a critical, previously unexplored attack surface: the concept bottleneck layer itself. We present a comprehensive, systematic study of concept-level adversarial vulnerabilities in CBMs, revealing that targeted, minimal perturbations operating on input pixels can induce catastrophic misclassification by manipulating semantic representations. We develop a rigorous theoretical framework to quantify concept-space robustness, establishing novel metrics that expose the vulnerability landscape of these architectures. Our extensive analysis on the CUB-200-2011 dataset demonstrates that standard CBMs exhibit severe susceptibility to concept-level manipulation. To address this critical weakness, we introduce SPECTRA (Semantic Perturbation-based Concept Training for Robustness against Attacks), a principled stability regularization defense. SPECTRA effectively hardens the semantic representation space, increasing the minimal perturbation norm required for a successful attack from 0.46 to over 4,200, rendering targeted concept manipulation computationally prohibitive. Furthermore, SPECTRA preserves baseline classification accuracy to within 2.2%. By establishing concept-level attacks as a fundamentally distinct threat model, this work opens a new research frontier at the intersection of interpretable machine learning and adversarial robustness.
- Abstract(参考訳): 概念ボトルネックモデル(Concept Bottleneck Models, CBM)は、人間の理解可能な中間表現を明示的な概念アクティベーションを通じて提供し、解釈可能な機械学習の基盤となるアプローチとして登場した。
しかし、この解釈容易性は、基本的には重要な、未調査のアタックサーフェス、すなわち概念のボトルネック層自体を導入します。
我々は,CBMにおける概念レベルの敵の脆弱性を包括的かつ体系的に研究し,入力画素に作用する最小限の摂動が,意味表現を操作することによって破滅的な誤分類を誘発することを示した。
我々は、概念空間の堅牢性を定量化する厳密な理論フレームワークを開発し、これらのアーキテクチャの脆弱性の景観を明らかにする新しい指標を確立する。
CUB-200-2011データセットの広範な分析により、標準CBMは概念レベルの操作に対して深刻な感受性を示すことが示された。
この致命的な弱点に対処するため, SPECTRA(Semantic Perturbation-based Concept Training for Robustness against Attacks)を導入する。
SPECTRAは意味表現空間を効果的に強化し、攻撃を成功させるのに必要な最小限の摂動ノルムを0.46から4,200以上に増やし、目標とする概念操作を計算的に禁止した。
さらに、SPECTRAはベースライン分類の精度を2.2%以内に保っている。
概念レベルの攻撃を根本的に異なる脅威モデルとして確立することにより、この研究は解釈可能な機械学習と敵の堅牢性の交差点に新たな研究フロンティアを開く。
関連論文リスト
- Hyperbolic Concept Bottleneck Models [17.962222104908648]
概念ボトルネックモデル(CBM)は、人間の理解可能な概念の集合に入力を拘束することで、ニューラルネットワークの解釈可能性を実現するための一般的なアプローチとなっている。
本稿では,ハイパーボリック空間における非対称な幾何学的包摂として概念活性化を再構成することにより,この構造におけるボトルネックを解消するポストホック・フレームワークであるハイパーボリック・コンセプト・ボトルネック・モデル(HypCBM)を提案する。
概念のentailment coneの範囲内でのインクルージョンの限界は、余分な監督や学習モジュールなしで、階層的に認識されたアクティベーションをもたらす。
論文 参考訳(メタデータ) (2026-05-07T15:41:22Z) - Rethinking Concept Bottleneck Models: From Pitfalls to Solutions [53.84388497227224]
概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、人間の理解可能な概念の基底予測である。
CBM-Suiteはこれらの課題に対処するための方法論的なフレームワークである。
論文 参考訳(メタデータ) (2026-03-05T19:37:49Z) - Understanding Degradation with Vision Language Model [56.09241449206817]
視覚的劣化を理解することは、コンピュータビジョンにおいて重要な問題であるが、難しい問題である。
本稿では,教師付き微調整と強化学習を併用したマルチモーダル・チェーン・オブ・ソート・モデルであるDU-VLMを紹介する。
また,110,000個のクリーン劣化ペアと接地された物理アノテーションからなる大規模データセットである textbfDU-110k も導入した。
論文 参考訳(メタデータ) (2026-02-04T13:51:15Z) - Rethinking Transferable Adversarial Attacks on Point Clouds from a Compact Subspace Perspective [55.919842734983156]
CoSAは、共有された低次元セマンティック空間内で機能する転送可能なアタックフレームワークである。
CoSAは、最先端のトランスファー可能な攻撃を一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-30T15:48:11Z) - Sample-efficient Learning of Concepts with Theoretical Guarantees: from Data to Concepts without Interventions [13.877511370053794]
概念ボトルネックモデル(CBM)は、高次元データから解釈可能な概念を学ぶことでこれらの課題に対処する。
本稿では,学習概念の正しさと必要なラベル数に関する理論的保証を提供する枠組みについて述べる。
合成および画像のベンチマークにおいて、我々のフレームワークを評価し、学習された概念が不純物が少なく、しばしば他のCBMよりも正確であることを示す。
論文 参考訳(メタデータ) (2025-02-10T15:01:56Z) - Guarding the Gate: ConceptGuard Battles Concept-Level Backdoors in Concept Bottleneck Models [8.793955189563516]
概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、高レベルのセマンティック概念を用いて透明性を高める。
CBMは、これらの概念に隠れたトリガーを注入する概念レベルのバックドア攻撃に弱いため、検出不能な異常な振る舞いを引き起こす。
本研究では,概念レベルのバックドア攻撃からCBMを保護するために設計された新しい防御フレームワークであるConceptGuardを紹介する。
論文 参考訳(メタデータ) (2024-11-25T15:55:06Z) - CAT: Concept-level backdoor ATtacks for Concept Bottleneck Models [8.236058439213473]
概念ボトルネックモデル(CBM)は、高レベルな意味情報を活用することで、解釈可能性を改善するための重要なアプローチとして登場した。
CBMはセキュリティ上の脅威、特にモデル動作を隠蔽的に操作できるバックドア攻撃の影響を受けやすい。
CAT(Concept-level Backdoor ATtacks)は,CBM内の概念表現を利用して,トレーニング中にトリガを埋め込む手法である。
強化された攻撃パターンであるCAT+は、最も効果的でステルス的な概念トリガーを体系的に選択する相関関数を組み込んでいる。
論文 参考訳(メタデータ) (2024-10-07T08:14:17Z) - Doubly Robust Instance-Reweighted Adversarial Training [107.40683655362285]
本稿では,2重のインスタンス再重み付き対向フレームワークを提案する。
KL偏差正規化損失関数の最適化により重みを求める。
提案手法は, 平均ロバスト性能において, 最先端のベースライン法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-01T06:16:18Z) - A general framework for defining and optimizing robustness [74.67016173858497]
分類器の様々な種類の堅牢性を定義するための厳密でフレキシブルなフレームワークを提案する。
我々の概念は、分類器の堅牢性は正確性とは無関係な性質と考えるべきであるという仮定に基づいている。
我々は,任意の分類モデルに適用可能な,非常に一般的なロバスト性フレームワークを開発する。
論文 参考訳(メタデータ) (2020-06-19T13:24:20Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。