論文の概要: Keeping up with dynamic attackers: Certifying robustness to adaptive online data poisoning
- arxiv url: http://arxiv.org/abs/2502.16737v1
- Date: Sun, 23 Feb 2025 22:40:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:53:11.611028
- Title: Keeping up with dynamic attackers: Certifying robustness to adaptive online data poisoning
- Title(参考訳): 動的攻撃に追随する - 適応的なオンラインデータ中毒に対する堅牢性の証明
- Authors: Avinandan Bose, Laurent Lessard, Maryam Fazel, Krishnamurthy Dj Dvijotham,
- Abstract要約: 人間のフィードバックを微調整した基礎モデルの台頭は、敵対的なデータ中毒のリスクを高めている。
本稿では, 動的中毒の影響について, 認定境界を計算するための新しい枠組みを提案する。
これらの証明書を使って、堅牢な学習アルゴリズムを設計します。
- 参考スコア(独自算出の注目度): 20.44830200702146
- License:
- Abstract: The rise of foundation models fine-tuned on human feedback from potentially untrusted users has increased the risk of adversarial data poisoning, necessitating the study of robustness of learning algorithms against such attacks. Existing research on provable certified robustness against data poisoning attacks primarily focuses on certifying robustness for static adversaries who modify a fraction of the dataset used to train the model before the training algorithm is applied. In practice, particularly when learning from human feedback in an online sense, adversaries can observe and react to the learning process and inject poisoned samples that optimize adversarial objectives better than when they are restricted to poisoning a static dataset once, before the learning algorithm is applied. Indeed, it has been shown in prior work that online dynamic adversaries can be significantly more powerful than static ones. We present a novel framework for computing certified bounds on the impact of dynamic poisoning, and use these certificates to design robust learning algorithms. We give an illustration of the framework for the mean estimation and binary classification problems and outline directions for extending this in further work. The code to implement our certificates and replicate our results is available at https://github.com/Avinandan22/Certified-Robustness.
- Abstract(参考訳): 潜在的に信頼できないユーザからのフィードバックに基づいて微調整された基礎モデルの台頭は、敵対的なデータ中毒のリスクを高め、そのような攻撃に対する学習アルゴリズムの堅牢性の研究を必要としている。
データ中毒攻撃に対する証明可能なロバスト性に関する既存の研究は、トレーニングアルゴリズムを適用する前にモデルのトレーニングに使用するデータセットの一部を修正した静的敵に対するロバスト性認定に重点を置いている。
実際には、特にオンラインの意味で人間のフィードバックから学ぶ場合、学習プロセスを観察して反応し、学習アルゴリズムを適用する前に静的なデータセットを1度中毒に制限される場合よりも、敵の目的を最適化する有毒なサンプルを注入することができる。
実際、オンラインの動的敵は静的な敵よりもはるかに強力であることが以前の研究で示されている。
本稿では, 動的中毒の影響を計算し, 頑健な学習アルゴリズムの設計にこれらの証明を用いる新しい枠組みを提案する。
本稿では、平均推定および二項分類問題のためのフレームワークの例を示し、これを更なる作業で拡張するための方向性を概説する。
証明書を実装し、結果を複製するコードはhttps://github.com/Avinandan22/Certified-Robustness.comで入手できる。
関連論文リスト
- Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Transferable Availability Poisoning Attacks [23.241524904589326]
我々は、機械学習モデルの総合的なテスト精度を低下させることを目的とした、アベイラビリティーデータ中毒攻撃について検討する。
既存の毒殺対策は攻撃目標を達成することができるが、被害者は敵が攻撃をマウントするために使用するものと同じ学習方法を採用すると仮定する。
本稿では,まずアライメントと均一性の本質的な特性を活用して,非学習性を向上するTransferable Poisoningを提案する。
論文 参考訳(メタデータ) (2023-10-08T12:22:50Z) - DAD++: Improved Data-free Test Time Adversarial Defense [12.606555446261668]
本稿では,検出・修正フレームワークを含むDAD(Data-free Adversarial Defense)を提案する。
提案手法の有効性を示すため,いくつかのデータセットとネットワークアーキテクチャについて幅広い実験と改善を行った。
私たちのDAD++は、クリーンな精度を最小限に抑えながら、様々な敵攻撃に対して印象的なパフォーマンスを提供します。
論文 参考訳(メタデータ) (2023-09-10T20:39:53Z) - Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。
シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T19:57:19Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Accumulative Poisoning Attacks on Real-time Data [56.96241557830253]
我々は、よく設計されたが簡単な攻撃戦略が、中毒効果を劇的に増幅できることを示します。
我々の研究は、よく設計されたが簡単な攻撃戦略が、中毒効果を劇的に増幅できることを検証する。
論文 参考訳(メタデータ) (2021-06-18T08:29:53Z) - How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。
本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。
我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文 参考訳(メタデータ) (2020-12-02T15:30:21Z) - Adversarial Self-Supervised Contrastive Learning [62.17538130778111]
既存の対数学習アプローチは、主にクラスラベルを使用して、誤った予測につながる対数サンプルを生成する。
本稿では,未ラベルデータに対する新たな逆攻撃を提案する。これにより,モデルが摂動データサンプルのインスタンスレベルのアイデンティティを混乱させる。
ラベル付きデータなしで頑健なニューラルネットワークを逆さまにトレーニングするための,自己教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-13T08:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。