Fugu-MT 論文翻訳(概要): Delta-Influence: Unlearning Poisons via Influence Functions

論文の概要: Delta-Influence: Unlearning Poisons via Influence Functions

arxiv url: http://arxiv.org/abs/2411.13731v1
Date: Wed, 20 Nov 2024 22:15:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:49.665804
Title: Delta-Influence: Unlearning Poisons via Influence Functions
Title（参考訳）: デルタ・インフルエンス:インフルエンス・ファンクションによるアンラーニング・ポゾン
Authors: Wenjie Li, Jiawei Li, Christian Schroeder de Witt, Ameya Prabhu, Amartya Sanyal,
Abstract要約: 有害なトレーニングデータから異常なモデル行動を追跡する新しいアプローチである$Delta$-Influenceを導入する。 $Delta$-Influenceは、有毒なトレーニングデータと妥協したテストポイントとのリンクを回避したデータ変換を適用します。 Delta$-Influenceはすべての設定で最高のアンラーニングを実現しています。
参考スコア（独自算出の注目度）: 18.97730860349776
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Addressing data integrity challenges, such as unlearning the effects of data poisoning after model training, is necessary for the reliable deployment of machine learning models. State-of-the-art influence functions, such as EK-FAC, often fail to accurately attribute abnormal model behavior to the specific poisoned training data responsible for the data poisoning attack. In addition, traditional unlearning algorithms often struggle to effectively remove the influence of poisoned samples, particularly when only a few affected examples can be identified. To address these challenge, we introduce $\Delta$-Influence, a novel approach that leverages influence functions to trace abnormal model behavior back to the responsible poisoned training data using as little as just one poisoned test example. $\Delta$-Influence applies data transformations that sever the link between poisoned training data and compromised test points without significantly affecting clean data. This allows $\Delta$-Influence to detect large negative shifts in influence scores following data transformations, a phenomenon we term as influence collapse, thereby accurately identifying poisoned training data. Unlearning this subset, e.g. through retraining, effectively eliminates the data poisoning. We validate our method across three vision-based poisoning attacks and three datasets, benchmarking against four detection algorithms and five unlearning strategies. We show that $\Delta$-Influence consistently achieves the best unlearning across all settings, showing the promise of influence functions for corrective unlearning. Our code is publicly available at: \url{https://github.com/andyisokay/delta-influence}
Abstract（参考訳）: モデルトレーニング後のデータ中毒の影響をアンラーニングするなどのデータ完全性の問題に対処することは、マシンラーニングモデルの信頼性の高いデプロイに必要である。 EK-FACのような最先端の影響関数は、データ中毒攻撃の原因となる特定の有毒な訓練データに対して、異常なモデルの振る舞いを正確に評価することができないことが多い。さらに、従来の未学習アルゴリズムは、特に影響を受けたサンプルがいくつかしか特定できない場合に、有毒なサンプルの影響を効果的に除去するのに苦労することが多い。これらの課題に対処するために、$\Delta$-Influenceという新しいアプローチを紹介します。これは、影響関数を利用して、原因となる有毒なトレーニングデータに、たった1つの有毒なテスト例を使って、異常なモデルの振る舞いをトレースする、新しいアプローチです。 $\Delta$-Influenceは、有毒なトレーニングデータと汚染されたテストポイントとのリンクを、クリーンなデータに大きく影響しないように、データ変換を適用します。これにより、$\Delta$-Influenceは、データ変換後の影響スコアの大きな負のシフトを検出することができる。このサブセットをアンラーニングする、例えば再トレーニングを通じて、データ中毒を効果的に排除する。 4つの検出アルゴリズムと5つのアンラーニング戦略をベンチマークし、3つの視覚ベースの中毒攻撃と3つのデータセットにまたがる手法を検証する。 Delta$-Influenceは、すべての設定で最高のアンラーニングを実現し、修正アンラーニングのための影響関数の約束を示す。私たちのコードは、次のように公開されています。

関連論文リスト

Detecting Instruction Fine-tuning Attack on Language Models with Influence Function [6.760293300577228]
インストラクションの微調整攻撃は、モデルアライメントを損なうとともに、現実のデプロイメントにおいてセキュリティリスクを引き起こす。本稿では,影響関数を用いて攻撃を検知・緩和する,シンプルで効果的な手法を提案する。我々は,大規模データセットに対する言語モデル命令の微調整攻撃を検出するための影響関数を初めて適用した。
論文参考訳（メタデータ） (2025-04-12T00:50:28Z)
PoisonBench: Assessing Large Language Model Vulnerability to Data Poisoning [32.508939142492004]
我々は、好み学習中のデータ中毒に対する大規模言語モデルの感受性を評価するためのベンチマークであるPoisonBenchを紹介する。データ中毒攻撃は、隠れた悪意のあるコンテンツやバイアスを含むために、大きな言語モデルレスポンスを操作することができる。 8つの現実的なシナリオに2つの異なる攻撃タイプをデプロイし、21の広く使用されているモデルを評価します。
論文参考訳（メタデータ） (2024-10-11T13:50:50Z)
Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。 UE識別のための反復フィルタリング手法を提案する。
論文参考訳（メタデータ） (2024-08-15T13:26:13Z)
Corrective Machine Unlearning [22.342035149807923]
我々は、未知の操作が学習モデルに与える影響を緩和する問題として、矯正機械学習を定式化する。削除セットを使わずにスクラッチから再学習するなど、既存の未学習手法の多くは、有効な修正未学習のために、操作されたデータの大部分を識別する必要がある。選択的シナプス減衰法(Selective Synaptic Dampening)は, 操作したサンプルのごく一部で, 有害な効果を学習することなく, 限られた成功を達成している。
論文参考訳（メタデータ） (2024-02-21T18:54:37Z)
HINT: Healthy Influential-Noise based Training to Defend against Data Poisoning Attacks [12.929357709840975]
本研究では,影響関数に基づくデータ中毒攻撃を効果的かつ堅牢に防ぐためのトレーニング手法を提案する。影響関数を用いて、有害な攻撃に対する分類モデルを強化するのに役立つ健全なノイズを創出する。実験の結果,HINTは非標的および標的の毒殺攻撃の効果に対して,ディープラーニングモデルを効果的に保護できることが示唆された。
論文参考訳（メタデータ） (2023-09-15T17:12:19Z)
On the Exploitability of Instruction Tuning [103.8077787502381]
そこで本研究では,モデルの動作を変えるための命令チューニングを,相手がどのように活用できるかを検討する。自動データ中毒パイプラインである textitAutoPoison を提案する。結果から、AutoPoisonは、少数のデータだけを中毒することで、敵がモデルの振る舞いを変えることを可能にする。
論文参考訳（メタデータ） (2023-06-28T17:54:04Z)
Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文参考訳（メタデータ） (2023-06-06T14:45:24Z)
A Pretrainer's Guide to Training Data: Measuring the Effects of Data Age, Domain Coverage, Quality, & Toxicity [84.6421260559093]
この研究は、テキスト事前学習に関する文書化されていない直観を検証、定量化、公開するための最大の実験である。以上の結果から,トレーニングデータをフィルタリングする一大ソリューションが存在しないことが示唆された。
論文参考訳（メタデータ） (2023-05-22T15:57:53Z)
Accumulative Poisoning Attacks on Real-time Data [56.96241557830253]
我々は、よく設計されたが簡単な攻撃戦略が、中毒効果を劇的に増幅できることを示します。我々の研究は、よく設計されたが簡単な攻撃戦略が、中毒効果を劇的に増幅できることを検証する。
論文参考訳（メタデータ） (2021-06-18T08:29:53Z)
FastIF: Scalable Influence Functions for Efficient Model Interpretation and Debugging [112.19994766375231]
影響関数は、テスト予測のためのトレーニングデータポイントの「影響」を近似する。 fastifは、実行時間を大幅に改善する関数に影響を与えるための、単純な修正セットです。本実験はモデル解釈とモデル誤差の修正における影響関数の可能性を示す。
論文参考訳（メタデータ） (2020-12-31T18:02:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。