論文の概要: GRILL: Gradient Signal Restoration in Ill-Conditioned Layers to Enhance Adversarial Attacks on Autoencoders
- arxiv url: http://arxiv.org/abs/2505.03646v2
- Date: Mon, 04 Aug 2025 20:48:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 15:23:34.161316
- Title: GRILL: Gradient Signal Restoration in Ill-Conditioned Layers to Enhance Adversarial Attacks on Autoencoders
- Title(参考訳): GRILL:Ill-Conditioned Layersのグラディエント信号復元により、オートエンコーダの敵攻撃を抑える
- Authors: Chethan Krishnamurthy Ramanaik, Arjun Roy, Tobias Callies, Eirini Ntoutsi,
- Abstract要約: GRILLは、不条件層における勾配信号を復元し、より効果的なノルムバウンド攻撃を可能にする手法である。
本手法は敵攻撃の有効性を著しく向上させ,より厳密なAEロバスト性評価を可能にした。
- 参考スコア(独自算出の注目度): 4.046100165562807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial robustness of deep autoencoders (AEs) remains relatively unexplored, even though their non-invertible nature poses distinct challenges. Existing attack algorithms during the optimization of imperceptible, norm-bounded adversarial perturbations to maximize output damage in AEs, often stop at sub-optimal attacks. We observe that the adversarial loss gradient vanishes when backpropagated through ill-conditioned layers. This issue arises from near-zero singular values in the Jacobians of these layers, which weaken the gradient signal during optimization. We introduce GRILL, a technique that locally restores gradient signals in ill-conditioned layers, enabling more effective norm-bounded attacks. Through extensive experiments on different architectures of popular AEs, under both sample-specific and universal attack setups, and across standard and adaptive attack settings, we show that our method significantly increases the effectiveness of our adversarial attacks, enabling a more rigorous evaluation of AE robustness.
- Abstract(参考訳): ディープ・オートエンコーダ(AE)の敵対的ロバスト性は、その非可逆性は異なる課題を呈するにもかかわらず、比較的未解明のままである。
既存の攻撃アルゴリズムは、AEsの出力損傷を最大化するために、非受容的でノルム境界の対向摂動を最適化するが、しばしば準最適攻撃で停止する。
我々は,不条件層を逆伝播した場合に,対向損失勾配が消失するのを観察する。
この問題は、これらの層のヤコビアンのほぼゼロの特異値から生じ、最適化中の勾配信号が弱まる。
GRILLは、不条件層内の勾配信号を局所的に復元し、より効果的なノルム境界攻撃を可能にする手法である。
一般的なAEの異なるアーキテクチャに関する広範な実験、サンプル固有および普遍的な攻撃設定、および標準および適応的な攻撃設定を通じて、我々の手法は敵攻撃の有効性を大幅に向上させ、より厳密なAEロバスト性の評価を可能にした。
関連論文リスト
- Evolution-based Region Adversarial Prompt Learning for Robustness Enhancement in Vision-Language Models [52.8949080772873]
本稿では,ER-APTと呼ばれる進化型領域逆アプティブチューニング手法を提案する。
各トレーニングイテレーションでは、まず従来の勾配法を用いてAEを生成する。
次に、AEsを最適化するために、選択、突然変異、交差を含む遺伝的進化機構を適用する。
最終進化型AEは、従来の単点対向的な高速チューニングの代わりに、地域ベースの対向最適化を実現するために用いられる。
論文 参考訳(メタデータ) (2025-03-17T07:08:47Z) - Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。
未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T15:04:04Z) - Enhancing Adversarial Transferability with Adversarial Weight Tuning [36.09966860069978]
敵対的な例(AE)は、人間の観察者に対して良心を抱きながらモデルを誤解させた。
AWTは、勾配に基づく攻撃法とモデルに基づく攻撃法を組み合わせて、AEの転送可能性を高めるデータフリーチューニング手法である。
論文 参考訳(メタデータ) (2024-08-18T13:31:26Z) - On Minimizing Adversarial Counterfactual Error in Adversarial RL [18.044879441434432]
敵の騒音は、安全クリティカルなシナリオにおいて重大なリスクを生じさせる。
我々は,ACoE(Adversarial Counterfactual Error)と呼ばれる新しい目標を導入する。
本手法は, 対向RL問題に対処するための最先端手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-06-07T08:14:24Z) - Advancing Generalized Transfer Attack with Initialization Derived Bilevel Optimization and Dynamic Sequence Truncation [49.480978190805125]
転送攻撃はブラックボックスアプリケーションに大きな関心を惹きつける。
既存の作業は、本質的に単一のレベルの目的 w.r.t. シュロゲートモデルを直接最適化する。
本稿では,上位レベル(UL)と下位レベル(LL)のサロゲート攻撃とのネスト関係を明示的に再構築する2レベル最適化手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T07:45:27Z) - Explaining the role of Intrinsic Dimensionality in Adversarial Training [31.495803865226158]
その結果,非多様体対向例(AEs)は強靭性を高め,一方,非多様体のAEsは一般化を向上させることがわかった。
SMAATは,最も内在次元の低い層を摂動させることにより,エンコーダモデルにおけるATのスケーラビリティを向上させる。
我々は、テキスト生成、感情分類、安全フィルタリング、検索強化生成設定など、複数のタスクにわたるSMAATを検証する。
論文 参考訳(メタデータ) (2024-05-27T12:48:30Z) - Eliminating Catastrophic Overfitting Via Abnormal Adversarial Examples Regularization [50.43319961935526]
SSAT(Single-step adversarial training)は、効率性と堅牢性の両方を達成する可能性を実証している。
SSATは破滅的なオーバーフィッティング(CO)に苦しむが、これは非常に歪んだ分類器に繋がる現象である。
本研究では,SSAT学習ネットワーク上で発生するいくつかの逆の例が異常な振る舞いを示すことを観察する。
論文 参考訳(メタデータ) (2024-04-11T22:43:44Z) - SSTA: Salient Spatially Transformed Attack [18.998300969035885]
ディープニューラルネットワーク(DNN)は敵の攻撃に対して脆弱である。
本稿では,知覚不可能な敵の例(AE)を作成するために,SSTA(Salient Spatially Transformed Attack)を提案する。
最先端のベースラインと比較して、SSTAは100%の攻撃成功率を維持しながら、AEの非感受性を効果的に改善できることを示した。
論文 参考訳(メタデータ) (2023-12-12T13:38:00Z) - LEAT: Towards Robust Deepfake Disruption in Real-World Scenarios via
Latent Ensemble Attack [11.764601181046496]
生成モデルによって作成された悪意のある視覚コンテンツであるディープフェイクは、社会にますます有害な脅威をもたらす。
近年のディープフェイクの損傷を積極的に軽減するために, 逆方向の摂動を用いてディープフェイクモデルの出力を妨害する研究が進められている。
そこで本研究では,Latent Ensemble ATtack (LEAT) と呼ばれる簡易かつ効果的なディスラプション手法を提案する。
論文 参考訳(メタデータ) (2023-07-04T07:00:37Z) - Guidance Through Surrogate: Towards a Generic Diagnostic Attack [101.36906370355435]
我々は、攻撃最適化中に局所最小限を避けるための誘導機構を開発し、G-PGAと呼ばれる新たな攻撃に繋がる。
修正された攻撃では、ランダムに再起動したり、多数の攻撃を繰り返したり、最適なステップサイズを検索したりする必要がありません。
効果的な攻撃以上に、G-PGAは敵防御における勾配マスキングによる解離性堅牢性を明らかにするための診断ツールとして用いられる。
論文 参考訳(メタデータ) (2022-12-30T18:45:23Z) - Towards Efficient and Domain-Agnostic Evasion Attack with
High-dimensional Categorical Inputs [33.36532022853583]
本研究の目的は,ドメインに依存しない領域において,高次元のカテゴリー入力を持つ摂動を攻撃可能な逆方向を探索することである。
提案手法は,マルチアームバンディットプログラミングにおいて,各カテゴリ機能の変更を腕を引くものとして扱う。
本研究は,高次元カテゴリ入力を用いた分類システムの逆脆弱性評価におけるFEATの適用性をさらに示唆するものである。
論文 参考訳(メタデータ) (2022-12-13T18:45:00Z) - Adv-Attribute: Inconspicuous and Transferable Adversarial Attack on Face
Recognition [111.1952945740271]
Adv-Attribute (Adv-Attribute) は、顔認証に対する不明瞭で伝達可能な攻撃を生成するように設計されている。
FFHQとCelebA-HQデータセットの実験は、提案されたAdv-Attributeメソッドが最先端の攻撃成功率を達成することを示している。
論文 参考訳(メタデータ) (2022-10-13T09:56:36Z) - Unreasonable Effectiveness of Last Hidden Layer Activations [0.5156484100374058]
本研究では, 高い温度値を持つモデルの出力層で広く知られているアクティベーション関数を用いることで, 標的および標的外攻撃事例の勾配をゼロにする効果が示された。
CIFAR10データセットであるMNIST(Digit)に対するアプローチの有効性を実験的に検証した。
論文 参考訳(メタデータ) (2022-02-15T12:02:59Z) - Discriminator-Free Generative Adversarial Attack [87.71852388383242]
生成的ベースの敵攻撃は、この制限を取り除くことができる。
ASymmetric Saliency-based Auto-Encoder (SSAE) は摂動を生成する。
SSAEが生成した敵の例は、広く使われているモデルを崩壊させるだけでなく、優れた視覚的品質を実現する。
論文 参考訳(メタデータ) (2021-07-20T01:55:21Z) - Sparse and Imperceptible Adversarial Attack via a Homotopy Algorithm [93.80082636284922]
少数の敵対的攻撃は、数ピクセルを摂動するだけでディープ・ネットワーク(DNN)を騙すことができる。
近年の取り組みは、他の等級のl_infty摂動と組み合わせている。
本稿では,空間的・神経的摂動に対処するホモトピーアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-10T20:11:36Z) - Combating Adversaries with Anti-Adversaries [118.70141983415445]
特に、我々の層は、逆の層とは反対の方向に入力摂動を生成します。
我々は,我々の階層と名目および頑健に訓練されたモデルを組み合わせることで,我々のアプローチの有効性を検証する。
我々の対向層は、クリーンな精度でコストを伴わずにモデルロバスト性を著しく向上させる。
論文 参考訳(メタデータ) (2021-03-26T09:36:59Z) - SLAP: Improving Physical Adversarial Examples with Short-Lived
Adversarial Perturbations [19.14079118174123]
Short-Lived Adrial Perturbations (SLAP) は、光プロジェクターを用いて、敵が物理的に堅牢な現実世界のAEを実現できる新しい技術である。
SLAPは、敵のパッチよりも敵の攻撃に対するコントロールを大きくする。
自動走行シナリオにおけるSLAPの実現可能性について検討し,物体検出タスクと交通標識認識タスクの両方を対象として検討した。
論文 参考訳(メタデータ) (2020-07-08T14:11:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。