論文の概要: Attack logics, not outputs: Towards efficient robustification of deep neural networks by falsifying concept-based properties
- arxiv url: http://arxiv.org/abs/2510.03320v1
- Date: Wed, 01 Oct 2025 05:51:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:58.825835
- Title: Attack logics, not outputs: Towards efficient robustification of deep neural networks by falsifying concept-based properties
- Title(参考訳): 出力ではなく攻撃論理:概念に基づく特性のファルシフィケーションによるディープニューラルネットワークの効率的な堅牢化を目指して
- Authors: Raik Dankworth, Gesina Schwalbe,
- Abstract要約: コンピュータビジョンのためのディープニューラルネットワーク(NN)は、敵の攻撃に対して脆弱である。
このような堅牢性の問題を検証し緩和するための重要なアプローチは、期待される出力の振る舞いを偽装することである。
本稿では,すでに訓練済みのNNに対して,概念ベースプロパティの簡易実装を提案する。
- 参考スコア(独自算出の注目度): 4.153834414190214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks (NNs) for computer vision are vulnerable to adversarial attacks, i.e., miniscule malicious changes to inputs may induce unintuitive outputs. One key approach to verify and mitigate such robustness issues is to falsify expected output behavior. This allows, e.g., to locally proof security, or to (re)train NNs on obtained adversarial input examples. Due to the black-box nature of NNs, current attacks only falsify a class of the final output, such as flipping from $\texttt{stop_sign}$ to $\neg\texttt{stop_sign}$. In this short position paper we generalize this to search for generally illogical behavior, as considered in NN verification: falsify constraints (concept-based properties) involving further human-interpretable concepts, like $\texttt{red}\wedge\texttt{octogonal}\rightarrow\texttt{stop_sign}$. For this, an easy implementation of concept-based properties on already trained NNs is proposed using techniques from explainable artificial intelligence. Further, we sketch the theoretical proof that attacks on concept-based properties are expected to have a reduced search space compared to simple class falsification, whilst arguably be more aligned with intuitive robustness targets. As an outlook to this work in progress we hypothesize that this approach has potential to efficiently and simultaneously improve logical compliance and robustness.
- Abstract(参考訳): コンピュータビジョンのためのディープニューラルネットワーク(NN)は、敵の攻撃に対して脆弱である。
このような堅牢性の問題を検証し緩和するための重要なアプローチは、期待される出力の振る舞いを偽装することである。
これにより、例えば、セキュリティをローカルに証明したり、取得した敵の入力例でNNを(再)訓練することが可能になる。
NNのブラックボックスの性質のため、現在の攻撃は、$\texttt{stop_sign}$から$\neg\texttt{stop_sign}$への切り替えなど、最終的な出力のクラスを偽装するだけである。
この短い立場の論文では、NNの検証で考慮されたように、一般的な非論理的な振る舞いを探索するためにこれを一般化する: $\texttt{red}\wedge\texttt{octogonal}\rightarrow\texttt{stop_sign}$のような、さらなる人間解釈可能な概念を含む制約(概念ベースのプロパティ)をファルシファイトする。
このため、すでに訓練済みのNNに対する概念ベースプロパティの簡単な実装が、説明可能な人工知能の手法を用いて提案されている。
さらに,概念的特性に対する攻撃は,単純なクラスファルシフィケーションに比べて探索空間が小さく,直感的ロバスト性目標と整合性が高いという理論的証明をスケッチする。
この研究の展望として、我々はこのアプローチが論理的コンプライアンスとロバストネスを効率的に同時に改善する可能性があると仮定する。
関連論文リスト
- Rethinking PGD Attack: Is Sign Function Necessary? [131.6894310945647]
本稿では,このような手話に基づく更新アルゴリズムが段階的攻撃性能にどのように影響するかを理論的に分析する。
本稿では,手話の使用を排除したRGDアルゴリズムを提案する。
提案したRGDアルゴリズムの有効性は実験で広く実証されている。
論文 参考訳(メタデータ) (2023-12-03T02:26:58Z) - Enhancing Robust Representation in Adversarial Training: Alignment and
Exclusion Criteria [61.048842737581865]
対人訓練 (AT) は, 頑健な特徴の学習を省略し, 対人的頑健さの低下を招いた。
非対称な負のコントラストと逆の注意によって、頑健な表現を得るためのATの一般的なフレームワークを提案する。
3つのベンチマークデータセットの実証評価により,ATの堅牢性を大幅に向上し,最先端の性能を実現することができた。
論文 参考訳(メタデータ) (2023-10-05T07:29:29Z) - Are aligned neural networks adversarially aligned? [93.91072860401856]
敵のユーザは、アライメントの試みを回避できるインプットを構築できる。
既存のNLPベースの最適化攻撃は、整列したテキストモデルを確実に攻撃するには不十分であることを示す。
我々は、NLP攻撃の改善が、テキストのみのモデルに対して、同じレベルの逆制御を示す可能性があると推測する。
論文 参考訳(メタデータ) (2023-06-26T17:18:44Z) - Towards Practical Control of Singular Values of Convolutional Layers [65.25070864775793]
畳み込みニューラルネットワーク(CNN)の訓練は容易であるが、一般化誤差や対向ロバスト性といった基本的な特性は制御が難しい。
最近の研究では、畳み込み層の特異値がそのような解像特性に顕著に影響を及ぼすことが示された。
我々は,レイヤ表現力の著しく低下を犠牲にして,先行技術の制約を緩和するための原則的アプローチを提供する。
論文 参考訳(メタデータ) (2022-11-24T19:09:44Z) - Verifying And Interpreting Neural Networks using Finite Automata [2.048226951354646]
DNN解析における問題に対処するための自動理論アプローチを提案する。
本稿では,DNNの入力出力動作を,弱いB"uchiオートマトンによって正確に捉えることができることを示す。
論文 参考訳(メタデータ) (2022-11-02T10:35:05Z) - On Consistency in Graph Neural Network Interpretation [34.25952902469481]
インスタンスレベルのGNN説明は、ターゲットのGNNが予測に頼っているノードやエッジなどの重要な入力要素を発見することを目的としている。
様々なアルゴリズムが提案されているが、その多くは最小の部分グラフを探索することによってこのタスクを定式化している。
埋め込みの整列による簡易かつ効果的な対策を提案する。
論文 参考訳(メタデータ) (2022-05-27T02:58:07Z) - Preventing Distillation-based Attacks on Neural Network IP [0.9558392439655015]
ニューラルネットワーク(NN)はすでにハードウェアにデプロイされており、トレーニングと最適化に何時間も費やされているため、貴重な知的財産権(IP)になっている。
そこで本研究では,蒸留による攻撃を防ぎ,予測を害する直感的な方法を提案する。
提案手法はNNを難読化して、攻撃者がNNを完全に的確に訓練できないようにする。
論文 参考訳(メタデータ) (2022-04-01T08:53:57Z) - A Mixed Integer Programming Approach for Verifying Properties of
Binarized Neural Networks [44.44006029119672]
BNN検証のための混合整数計画法を提案する。
我々は,MNISTデータセットと航空機衝突回避制御器を用いて訓練したBNNの特性を検証することによって,我々のアプローチを実証する。
論文 参考訳(メタデータ) (2022-03-11T01:11:29Z) - Adversarial Examples Detection with Bayesian Neural Network [57.185482121807716]
本稿では,ランダムな成分が予測器の滑らかさを向上できるという観測によって動機づけられた敵の例を検出するための新しい枠組みを提案する。
本稿では,BATer を略した新しいベイズ対向型サンプル検出器を提案し,対向型サンプル検出の性能を向上させる。
論文 参考訳(メタデータ) (2021-05-18T15:51:24Z) - An Analysis of Robustness of Non-Lipschitz Networks [35.64511156980701]
小さな入力摂動は、しばしばネットワークの最終層の特徴空間において大きな動きを引き起こす。
我々のモデルでは、敵対者は特徴空間において任意の距離でデータを移動することができるが、ランダムな低次元部分空間においてのみである。
データ駆動方式を用いて,アルゴリズムパラメータの設定を精度保持トレードオフよりも最適化するための理論的保証を提供する。
論文 参考訳(メタデータ) (2020-10-13T03:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。