論文の概要: Gradient Structure Estimation under Label-Only Oracles via Spectral Sensitivity
- arxiv url: http://arxiv.org/abs/2601.14300v1
- Date: Sat, 17 Jan 2026 02:47:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.085035
- Title: Gradient Structure Estimation under Label-Only Oracles via Spectral Sensitivity
- Title(参考訳): スペクトル感度によるラベル専用オラクルの勾配構造推定
- Authors: Jun Liu, Leo Yu Zhang, Fengpeng Li, Isao Echizen, Jiantao Zhou,
- Abstract要約: 我々は,既存の手動攻撃の幅広い範囲を,真の損失勾配の兆候を暗黙的に近似するものとして解釈できることを示す統一理論的な視点を開発する。
この第一原理の理解に動機づけられた我々は、ゼロクエリの周波数領域初期化とパターン駆動最適化(PDO)戦略を組み合わせた新たな攻撃フレームワークを提案する。
我々は、CIFAR-10、ImageNet、ObjectNetに関する広範な実験を通じて、我々のフレームワークを実証的に検証し、標準および敵対的に訓練されたモデル、商用API、CLIPベースのモデルをカバーする。
- 参考スコア(独自算出の注目度): 37.729118253160145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hard-label black-box settings, where only top-1 predicted labels are observable, pose a fundamentally constrained yet practically important feedback model for understanding model behavior. A central challenge in this regime is whether meaningful gradient information can be recovered from such discrete responses. In this work, we develop a unified theoretical perspective showing that a wide range of existing sign-flipping hard-label attacks can be interpreted as implicitly approximating the sign of the true loss gradient. This observation reframes hard-label attacks from heuristic search procedures into instances of gradient sign recovery under extremely limited feedback. Motivated by this first-principles understanding, we propose a new attack framework that combines a zero-query frequency-domain initialization with a Pattern-Driven Optimization (PDO) strategy. We establish theoretical guarantees demonstrating that, under mild assumptions, our initialization achieves higher expected cosine similarity to the true gradient sign compared to random baselines, while the proposed PDO procedure attains substantially lower query complexity than existing structured search approaches. We empirically validate our framework through extensive experiments on CIFAR-10, ImageNet, and ObjectNet, covering standard and adversarially trained models, commercial APIs, and CLIP-based models. The results show that our method consistently surpasses SOTA hard-label attacks in both attack success rate and query efficiency, particularly in low-query regimes. Beyond image classification, our approach generalizes effectively to corrupted data, biomedical datasets, and dense prediction tasks. Notably, it also successfully circumvents Blacklight, a SOTA stateful defense, resulting in a $0\%$ detection rate. Our code will be released publicly soon at https://github.com/csjunjun/DPAttack.git.
- Abstract(参考訳): ハードラベルのブラックボックス設定では、予測されたラベルのトップ1のみが観測可能であるが、モデル動作を理解するために基本的な制約があるが、実際は重要なフィードバックモデルを提供する。
この体制における中心的な課題は、そのような離散的な応答から有意義な勾配情報を回収できるかどうかである。
そこで本研究では,既存の手引き型ハードラベル攻撃が,真の損失勾配の兆候を暗黙的に近似できることを示す統一理論的な視点を考案した。
この観測は、ヒューリスティックな探索手順からのハードレーベル攻撃を、非常に限られたフィードバックの下で勾配信号回復の事例に再配置する。
この第一原理の理解に動機づけられた我々は、ゼロクエリの周波数領域初期化とパターン駆動最適化(PDO)戦略を組み合わせた新たな攻撃フレームワークを提案する。
提案手法は,提案手法が既存の構造的探索手法よりもクエリの複雑度を著しく低くするのに対し,提案手法はランダムなベースラインよりも,真の勾配符号と期待されるコサインの類似性が高いことを示す理論的保証を確立する。
我々は、CIFAR-10、ImageNet、ObjectNetに関する広範な実験を通じて、我々のフレームワークを実証的に検証し、標準および敵対的に訓練されたモデル、商用API、CLIPベースのモデルをカバーする。
その結果,本手法は攻撃成功率とクエリ効率の両方において,SOTAのハードラベル攻撃を一貫して上回り,特に低クエリ方式では高い結果を得た。
画像分類以外にも, 破損したデータ, バイオメディカルデータセット, 密度予測タスクを効果的に一般化する。
特に、SOTAのステートフルディフェンスであるブラックライトを回避し、検出レートが$0\%であることも注目に値する。
私たちのコードは間もなくhttps://github.com/csjunjun/DPAttack.git.comで公開されます。
関連論文リスト
- A Few Large Shifts: Layer-Inconsistency Based Minimal Overhead Adversarial Example Detection [13.109309606764754]
我々は、ターゲットモデル自体の内部の階層的不整合を利用するプラグイン検出フレームワークを導入する。
本手法は計算オーバーヘッドを無視して最先端検出性能を実現する。
論文 参考訳(メタデータ) (2025-05-19T00:48:53Z) - Typicalness-Aware Learning for Failure Detection [26.23185979968123]
ディープニューラルネットワーク(DNN)は、しばしば自信過剰な問題に悩まされる。
そこで本研究では,本問題に対処し,故障検出性能を向上させるために,S typicalness-Aware Learning (TAL) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-04T11:09:47Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Revisiting and Advancing Fast Adversarial Training Through The Lens of
Bi-Level Optimization [60.72410937614299]
提案手法は,2レベルAT(FAST-BAT)と呼ばれる新しいアルゴリズムセットの設計と解析である。
FAST-BATは、グラデーションサインメソッドや明示的なロバスト正規化を呼ぶことなく、符号ベースの投射降下(PGD)攻撃を防御することができる。
論文 参考訳(メタデータ) (2021-12-23T06:25:36Z) - Gaussian MRF Covariance Modeling for Efficient Black-Box Adversarial
Attacks [86.88061841975482]
我々は,ゼロオーダーのオラクルにのみアクセス可能なブラックボックス設定において,逆例を生成する問題について検討する。
我々はこの設定を用いて、FGSM(Fast Gradient Sign Method)のブラックボックス版と同様に、高速な1ステップの敵攻撃を見つける。
提案手法はクエリを少なくし,現在の技術よりも攻撃成功率が高いことを示す。
論文 参考訳(メタデータ) (2020-10-08T18:36:51Z) - Towards Query-Efficient Black-Box Adversary with Zeroth-Order Natural
Gradient Descent [92.4348499398224]
ブラックボックスの敵攻撃手法は、実用性や単純さから特に注目されている。
敵攻撃を設計するためのゼロ階自然勾配降下法(ZO-NGD)を提案する。
ZO-NGDは、最先端攻撃法と比較して、モデルクエリの複雑さが大幅に低い。
論文 参考訳(メタデータ) (2020-02-18T21:48:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。