論文の概要: Efficiently Attacking Memorization Scores
- arxiv url: http://arxiv.org/abs/2509.20463v1
- Date: Wed, 24 Sep 2025 18:33:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.534933
- Title: Efficiently Attacking Memorization Scores
- Title(参考訳): 記憶スコアを効果的に攻撃する
- Authors: Tue Do, Varun Chandrasekaran, Daniel Alabi,
- Abstract要約: 本稿では,記憶をベースとした影響推定装置の攻撃可能性について検討する。
我々は、訓練されたアルゴリズムが正確である体制において、高度に記憶されたサンプルを高感度なクエリとして生成する攻撃を特徴付ける。
本研究は,影響に基づく属性の重大な脆弱性を浮き彫りにし,堅牢な防御の必要性を示唆する。
- 参考スコア(独自算出の注目度): 16.56405009324799
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Influence estimation tools -- such as memorization scores -- are widely used to understand model behavior, attribute training data, and inform dataset curation. However, recent applications in data valuation and responsible machine learning raise the question: can these scores themselves be adversarially manipulated? In this work, we present a systematic study of the feasibility of attacking memorization-based influence estimators. We characterize attacks for producing highly memorized samples as highly sensitive queries in the regime where a trained algorithm is accurate. Our attack (calculating the pseudoinverse of the input) is practical, requiring only black-box access to model outputs and incur modest computational overhead. We empirically validate our attack across a wide suite of image classification tasks, showing that even state-of-the-art proxies are vulnerable to targeted score manipulations. In addition, we provide a theoretical analysis of the stability of memorization scores under adversarial perturbations, revealing conditions under which influence estimates are inherently fragile. Our findings highlight critical vulnerabilities in influence-based attribution and suggest the need for robust defenses. All code can be found at https://anonymous.4open.science/r/MemAttack-5413/
- Abstract(参考訳): メモリ化スコアなどの影響推定ツールは、モデル動作、属性トレーニングデータ、データセットキュレーションの通知に広く利用されている。
しかし、最近のデータバリュエーションと責任ある機械学習の応用は、疑問を提起している。
本研究は,暗記に基づく影響推定装置の攻撃可能性に関する系統的研究である。
我々は、訓練されたアルゴリズムが正確である体制において、高度に記憶されたサンプルを高感度なクエリとして生成する攻撃を特徴付ける。
我々の攻撃(入力の擬似逆数を計算する)は実用的であり、モデル出力へのブラックボックスアクセスと、控えめな計算オーバーヘッドしか必要としない。
我々は、幅広い画像分類タスクに対して、我々の攻撃を実証的に検証し、最先端のプロキシでさえ、ターゲットのスコア操作に対して脆弱であることを示した。
さらに, 対向的摂動下での記憶スコアの安定性に関する理論的解析を行い, 影響評価が本質的に脆弱な条件を明らかにする。
本研究は,影響に基づく属性の重大な脆弱性を浮き彫りにし,堅牢な防御の必要性を示唆する。
すべてのコードはhttps://anonymous.4open.science/r/MemAttack-5413/で見ることができる。
関連論文リスト
- Adversarial Training for Defense Against Label Poisoning Attacks [53.893792844055106]
ラベル中毒攻撃は機械学習モデルに重大なリスクをもたらす。
本稿では,これらの脅威に対処するために,サポートベクトルマシン(SVM)に基づく新たな対角的防御戦略を提案する。
提案手法は, 様々なモデルアーキテクチャに対応し, カーネルSVMを用いた予測勾配降下アルゴリズムを用いて, 対向学習を行う。
論文 参考訳(メタデータ) (2025-02-24T13:03:19Z) - Keeping up with dynamic attackers: Certifying robustness to adaptive online data poisoning [20.44830200702146]
人間のフィードバックを微調整した基礎モデルの台頭は、敵対的なデータ中毒のリスクを高めている。
本稿では, 動的中毒の影響について, 認定境界を計算するための新しい枠組みを提案する。
これらの証明書を使って、堅牢な学習アルゴリズムを設計します。
論文 参考訳(メタデータ) (2025-02-23T22:40:56Z) - FreqFed: A Frequency Analysis-Based Approach for Mitigating Poisoning
Attacks in Federated Learning [98.43475653490219]
フェデレート・ラーニング(Federated Learning, FL)は、毒素による攻撃を受けやすい。
FreqFedは、モデルの更新を周波数領域に変換する新しいアグリゲーションメカニズムである。
FreqFedは, 凝集モデルの有用性に悪影響を及ぼすことなく, 毒性攻撃を効果的に軽減できることを実証した。
論文 参考訳(メタデータ) (2023-12-07T16:56:24Z) - On Practical Aspects of Aggregation Defenses against Data Poisoning
Attacks [58.718697580177356]
悪意のあるトレーニングサンプルを持つディープラーニングモデルに対する攻撃は、データ中毒として知られている。
データ中毒に対する防衛戦略の最近の進歩は、認証された毒性の堅牢性を達成するためのアグリゲーション・スキームの有効性を強調している。
ここでは、Deep Partition Aggregation(ディープ・パーティション・アグリゲーション・アグリゲーション)、代表的アグリゲーション・ディフェンス(アグリゲーション・ディフェンス)に焦点を当て、効率、性能、堅牢性など、その実践的側面を評価する。
論文 参考訳(メタデータ) (2023-06-28T17:59:35Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - Interpretable and Effective Reinforcement Learning for Attacking against
Graph-based Rumor Detection [12.726403718158082]
ソーシャルネットワークは噂によって汚染され、機械学習モデルによって検出される。
ある種の脆弱性は、グラフへの依存と疑わしいランキングによるものである。
ブラックボックス検出器を用いて、強化学習が効果的かつ解釈可能な攻撃ポリシーを学習できるように、依存関係をキャプチャする機能を設計する。
論文 参考訳(メタデータ) (2022-01-15T10:06:29Z) - Enhanced Membership Inference Attacks against Machine Learning Models [9.26208227402571]
メンバーシップ推論攻撃は、モデルがトレーニングセット内の個々のデータポイントについてリークする個人情報の定量化に使用される。
我々は,AUCスコアを高い精度で達成できる新たな攻撃アルゴリズムを導き,その性能に影響を及ぼすさまざまな要因を強調した。
我々のアルゴリズムは、モデルにおけるプライバシ損失の極めて正確な近似を捉え、機械学習モデルにおけるプライバシリスクの正確かつ詳細な推定を行うためのツールとして使用することができる。
論文 参考訳(メタデータ) (2021-11-18T13:31:22Z) - Gradient-based Data Subversion Attack Against Binary Classifiers [9.414651358362391]
本研究では,攻撃者がラベルのラベルに毒を盛り,システムの機能を損なうようなラベル汚染攻撃に焦点を当てる。
我々は、予測ラベルに対する微分可能凸損失関数の勾配をウォームスタートとして利用し、汚染するデータインスタンスの集合を見つけるための異なる戦略を定式化する。
本実験は,提案手法がベースラインより優れ,計算効率が高いことを示す。
論文 参考訳(メタデータ) (2021-05-31T09:04:32Z) - Black-box Model Inversion Attribute Inference Attacks on Classification
Models [32.757792981935815]
我々は、トレーニングデータのインスタンスに関する非感受性属性を敵が知るような、ある種類のモデル反転攻撃に焦点を当てる。
信頼モデルに基づく攻撃と信頼スコアに基づく攻撃の2つの新しいモデル反転属性推論攻撃を考案した。
2つの実際のデータセットでトレーニングされた決定木とディープニューラルネットワークの2種類の機械学習モデルに対する攻撃を評価した。
論文 参考訳(メタデータ) (2020-12-07T01:14:19Z) - Sampling Attacks: Amplification of Membership Inference Attacks by
Repeated Queries [74.59376038272661]
本手法は,他の標準メンバーシップ相手と異なり,被害者モデルのスコアにアクセスできないような厳格な制限の下で動作可能な,新しいメンバーシップ推論手法であるサンプリングアタックを導入する。
ラベルのみを公開している被害者モデルでは,攻撃のサンプリングが引き続き可能であり,攻撃者はその性能の最大100%を回復できることを示す。
防衛においては,被害者モデルのトレーニング中の勾配摂動と予測時の出力摂動の形式で差分プライバシーを選択する。
論文 参考訳(メタデータ) (2020-09-01T12:54:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。