論文の概要: Approaching the Harm of Gradient Attacks While Only Flipping Labels
- arxiv url: http://arxiv.org/abs/2503.00140v2
- Date: Thu, 29 May 2025 21:22:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 15:03:34.328164
- Title: Approaching the Harm of Gradient Attacks While Only Flipping Labels
- Title(参考訳): ラベルを浮き彫りながらグラディエントアタックのハームに近づく
- Authors: Abdessamad El-Kabid, El-Mahdi El-Mhamdi,
- Abstract要約: 本稿では,ロジスティック回帰モデルに対するラベルフリップ攻撃の新たな形式化を提案する。
各トレーニングステップにおけるラベルのわずか0.1%の予算で、モデルの精度を6%削減できることを示す。
一部のモデルは、最大25%のラベルがフリップされたとき、ランダムな推測よりもパフォーマンスが悪くなります。
- 参考スコア(独自算出の注目度): 2.677995462843075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning systems deployed in distributed or federated environments are highly susceptible to adversarial manipulations, particularly availability attacks -adding imperceptible perturbations to training data, thereby rendering the trained model unavailable. Prior research in distributed machine learning has demonstrated such adversarial effects through the injection of gradients or data poisoning. In this study, we aim to enhance comprehension of the potential of weaker (and more probable) adversaries by posing the following inquiry: Can availability attacks be inflicted solely through the flipping of a subset of training labels, without altering features, and under a strict flipping budget? We analyze the extent of damage caused by constrained label flipping attacks. Focusing on a distributed classification problem, (1) we propose a novel formalization of label flipping attacks on logistic regression models and derive a greedy algorithm that is provably optimal at each training step. (2) To demonstrate that availability attacks can be approached by label flipping alone, we show that a budget of only $0.1\%$ of labels at each training step can reduce the accuracy of the model by $6\%$, and that some models can perform worse than random guessing when up to $25\%$ of labels are flipped. (3) We shed light on an interesting interplay between what the attacker gains from more write-access versus what they gain from more flipping budget. (4) we define and compare the power of targeted label flipping attack to that of an untargeted label flipping attack.
- Abstract(参考訳): 分散あるいはフェデレートされた環境にデプロイされた機械学習システムは、特にアベイラビリティーアタックに対して非常に影響を受けやすい。
分散機械学習における従来の研究は、勾配の注入やデータ中毒を通じてこのような逆効果を実証してきた。
本研究では,学習ラベルのサブセットのフリップによってのみアベイラビリティー攻撃を発生させることができるか,特徴を変更せず,かつ厳格なフリップ予算の下で,より弱い(そしてよりありそうな)敵の可能性の理解を高めることを目的としている。
本研究では,ラベルフリップ攻撃による損傷の程度を分析した。
分散分類問題に着目し,(1)ロジスティック回帰モデルに対するラベルフリップ攻撃の新たな形式化を提案し,各トレーニングステップで確実に最適となるグレディアルゴリズムを導出する。
2) ラベルのフリップだけでアベイラビリティーアタックにアプローチできることを示すため,各トレーニングステップにおけるラベルの0.1\%の予算でモデルの精度を6\%$に下げることができ,また,25\%のラベルをフリップした場合のランダムな推測よりも悪いモデルもあることを示した。
(3) 攻撃者がより書き込みアクセスで得られるものと、よりフリップする予算で得られるものとの間の興味深い相互作用に光を当てた。
(4) 対象ラベルフリップ攻撃のパワーを未目標ラベルフリップ攻撃のパワーと定義し比較する。
関連論文リスト
- Web Artifact Attacks Disrupt Vision Language Models [61.59021920232986]
視覚言語モデル(VLM)は、大規模で軽量にキュレートされたWebデータセットに基づいて訓練されている。
意味概念と無関係な視覚信号の間に意図しない相関関係を学習する。
これまでの研究は、これらの相関関係をモデル予測を操作するための攻撃ベクトルとして武器化してきた。
非マッチングテキストとグラフィカル要素の両方を使ってモデルを誤解させる新しい操作クラスである、アーティファクトベースのアタックを紹介します。
論文 参考訳(メタデータ) (2025-03-17T18:59:29Z) - Clean-image Backdoor Attacks [34.051173092777844]
本稿では,バックドアが不正確なラベルで注入可能であることを明らかにするクリーンイメージバックドア攻撃を提案する。
私たちの攻撃では、攻撃者はまず、トレーニングイメージを2つの部分に分割するトリガー機能を探します。
バックドアは、毒データで訓練された後、最終的にターゲットモデルに埋め込まれる。
論文 参考訳(メタデータ) (2024-03-22T07:47:13Z) - Vision-LLMs Can Fool Themselves with Self-Generated Typographic Attacks [58.10730906004818]
画像に誤解を招くテキストを追加するタイポグラフィー攻撃は、視覚言語モデル(LVLM)を欺くことができる
実験の結果,これらの攻撃は分類性能を最大60%低下させることがわかった。
論文 参考訳(メタデータ) (2024-02-01T14:41:20Z) - Fast Adversarial Label-Flipping Attack on Tabular Data [4.4989885299224515]
ラベルフリップ攻撃では、敵はトレーニングラベルの一部を不正に反転させ、機械学習モデルを侵害する。
本稿では,これらの攻撃が解き易い分類問題として,高度に歪んだデータセットをカモフラージュできるという重要な懸念を提起する。
敵ラベル作成に有効な新たな攻撃手法であるFALFAを提案する。
論文 参考訳(メタデータ) (2023-10-16T18:20:44Z) - Label Inference Attack against Split Learning under Regression Setting [24.287752556622312]
回帰モデルのシナリオにおいて,プライベートラベルが連続数である場合の漏洩について検討する。
グラデーション情報と追加学習正規化目標を統合した,新たな学習ベースアタックを提案する。
論文 参考訳(メタデータ) (2023-01-18T03:17:24Z) - Triggerless Backdoor Attack for NLP Tasks with Clean Labels [31.308324978194637]
バックドア攻撃で有毒なデータを構築するための標準的な戦略は、選択した文にトリガーを挿入し、元のラベルをターゲットラベルに変更することである。
この戦略は、トリガーとラベルの両方の観点から容易に検出されるという深刻な欠陥を伴っている。
そこで本研究では,外部トリガーを必要としないテキストバックドア攻撃を行う新たな手法を提案する。
論文 参考訳(メタデータ) (2021-11-15T18:36:25Z) - Indiscriminate Poisoning Attacks Are Shortcuts [77.38947817228656]
その結果, 標的ラベルを付与した場合, 進行性毒素攻撃の摂動は, ほぼ分離可能であることがわかった。
このような合成摂動は、故意に作られた攻撃と同じくらい強力であることを示す。
我々の発見は、アンフショートカット学習の問題が以前考えられていたよりも深刻であることを示唆している。
論文 参考訳(メタデータ) (2021-11-01T12:44:26Z) - Staircase Sign Method for Boosting Adversarial Attacks [123.19227129979943]
トランスファーベースの攻撃の敵の例を作るのは難しいし、研究のホットスポットだ。
そこで本研究では,この問題を緩和するための新しい階段サイン法(S$2$M)を提案する。
我々の手法は一般に転送ベースの攻撃と統合することができ、計算オーバーヘッドは無視できる。
論文 参考訳(メタデータ) (2021-04-20T02:31:55Z) - Label-Only Membership Inference Attacks [67.46072950620247]
ラベルのみのメンバシップ推論攻撃を導入する。
我々の攻撃は、摂動下でのモデルが予測するラベルの堅牢性を評価する。
差分プライバシーと(強い)L2正規化を備えたトレーニングモデルは、唯一知られている防衛戦略である。
論文 参考訳(メタデータ) (2020-07-28T15:44:31Z) - RayS: A Ray Searching Method for Hard-label Adversarial Attack [99.72117609513589]
我々は、レイサーチ攻撃(RayS)を提案し、これはハードラベル攻撃の有効性と効率を大幅に改善する。
モデルの正当性チェックとしても使用できる。
論文 参考訳(メタデータ) (2020-06-23T07:01:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。