論文の概要: Detecting Instruction Fine-tuning Attacks on Language Models using Influence Function
- arxiv url: http://arxiv.org/abs/2504.09026v2
- Date: Tue, 30 Sep 2025 09:06:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.717054
- Title: Detecting Instruction Fine-tuning Attacks on Language Models using Influence Function
- Title(参考訳): 影響関数を用いた言語モデルにおける命令微調整攻撃の検出
- Authors: Jiawei Li,
- Abstract要約: 命令の微調整攻撃は、大きな言語モデルに深刻な脅威をもたらす。
汚染されたデータは、クリーンなデータと区別できないことが多い。
本稿では,攻撃の事前知識を必要としない検出手法を提案する。
- 参考スコア(独自算出の注目度): 6.778374627376906
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Instruction finetuning attacks pose a serious threat to large language models (LLMs) by subtly embedding poisoned examples in finetuning datasets, leading to harmful or unintended behaviors in downstream applications. Detecting such attacks is challenging because poisoned data is often indistinguishable from clean data and prior knowledge of triggers or attack strategies is rarely available. We present a detection method that requires no prior knowledge of the attack. Our approach leverages influence functions under semantic transformation: by comparing influence distributions before and after a sentiment inversion, we identify critical poison examples whose influence is strong and remain unchanged before and after inversion. We show that this method works on sentiment classification task and math reasoning task, for different language models. Removing a small set of critical poisons (about 1% of the data) restores the model performance to near-clean levels. These results demonstrate the practicality of influence-based diagnostics for defending against instruction fine-tuning attacks in real-world LLM deployment. Artifact available at https://github.com/lijiawei20161002/Poison-Detection. WARNING: This paper contains offensive data examples.
- Abstract(参考訳): インストラクション微調整攻撃は、大規模言語モデル(LLM)に対して、汚染されたサンプルを微調整データセットに下位に埋め込むことで深刻な脅威となり、下流のアプリケーションに有害または意図しない振る舞いをもたらす。
このような攻撃を検出するのは難しいのは、有害なデータがクリーンなデータと区別できないことが多く、トリガーや攻撃戦略に関する事前の知識がほとんど得られないからだ。
本稿では,攻撃の事前知識を必要としない検出手法を提案する。
本手法は,感情の逆転前後の影響分布を比較することによって,影響が強く,逆転前後に変化しない有毒な例を同定する。
本手法は,異なる言語モデルに対して,感情分類タスクと数理推論タスクに有効であることを示す。
少量の有害毒(データの約1%)を除去すると、モデルの性能はほぼクリーンなレベルに回復する。
これらの結果は、実世界のLSMデプロイメントにおける命令微調整攻撃に対する防御のための影響に基づく診断の実用性を示している。
Artifactはhttps://github.com/lijiawei20161002/Poison-Detectionで入手できる。
WARNING: 攻撃的なデータ例を含む。
関連論文リスト
- Non-omniscient backdoor injection with a single poison sample: Proving the one-poison hypothesis for linear regression and linear classification [6.816788256267754]
1つの毒のサンプルと限られた背景知識を持つ敵がバックドアにゼロのバックドアエラーを注入できることを示す。
毒サンプルの良性データ分布で未使用の方向を利用する敵に対しては, 結果のモデルがトレーニングから除外されたモデルと機能的に等価であることを示す。
論文 参考訳(メタデータ) (2025-08-07T17:41:33Z) - Influence Functions for Preference Dataset Pruning [0.6138671548064356]
本研究では,TL;DRデータセットを報酬モデルトレーニングに適用し,共役勾配近似影響関数を用いてデータセットをフィルタする方法を実証する。
実験では, 学習例の10%を取り除いた結果, 影響関数フィルタリングにより, トレーニング精度が1.5%向上した。
また, 勾配類似性は, 有用なトレーニング例を検出するために, 影響関数より優れていることを示す。
論文 参考訳(メタデータ) (2025-07-18T19:43:36Z) - Accidental Vulnerability: Factors in Fine-Tuning that Shift Model Safeguards [13.197807179926428]
大規模言語モデル(LLM)の人気が高まり、敵の攻撃に対する脆弱性が主な関心事として浮上する。
本研究では,微調整データの特徴から生じるアクシデンタル脆弱性,予期せぬ脆弱性について検討する。
論文 参考訳(メタデータ) (2025-05-22T15:30:00Z) - Small-to-Large Generalization: Data Influences Models Consistently Across Scale [76.87199303408161]
小規模および大規模言語モデル予測(一般的には)は、トレーニングデータの選択に非常に相関している。
また、データ属性とデータセット選択という2つの下流プロキシモデルアプリケーションにおいて、プロキシスケールが有効性にどのように影響するかを特徴付ける。
論文 参考訳(メタデータ) (2025-05-22T05:50:19Z) - Towards Model Resistant to Transferable Adversarial Examples via Trigger Activation [95.3977252782181]
知覚不能な摂動によって特徴づけられる敵対的な例は、彼らの予測を誤解させることで、ディープニューラルネットワークに重大な脅威をもたらす。
本稿では,移動可能な敵例(TAE)に対して,より効率的かつ効果的に堅牢性を高めることを目的とした,新たなトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2025-04-20T09:07:10Z) - Delta-Influence: Unlearning Poisons via Influence Functions [28.557242025171963]
有害なトレーニングデータから異常なモデル行動を追跡する新しいアプローチである$Delta$-Influenceを導入する。
$Delta$-Influenceは、有毒なトレーニングデータと妥協したテストポイントとのリンクを回避したデータ変換を適用します。
Delta$-Influenceはすべての設定で最高のアンラーニングを実現しています。
論文 参考訳(メタデータ) (2024-11-20T22:15:10Z) - PoisonBench: Assessing Large Language Model Vulnerability to Data Poisoning [32.508939142492004]
我々は、好み学習中のデータ中毒に対する大規模言語モデルの感受性を評価するためのベンチマークであるPoisonBenchを紹介する。
データ中毒攻撃は、隠れた悪意のあるコンテンツやバイアスを含むために、大きな言語モデルレスポンスを操作することができる。
8つの現実的なシナリオに2つの異なる攻撃タイプをデプロイし、21の広く使用されているモデルを評価します。
論文 参考訳(メタデータ) (2024-10-11T13:50:50Z) - Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。
混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。
UE識別のための反復フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T13:26:13Z) - Revisit, Extend, and Enhance Hessian-Free Influence Functions [26.105554752277648]
影響関数は、モデルの解釈、サブセットのトレーニングセットの選択などにおけるサンプルの影響を評価する重要なツールとして機能する。
本稿では,Trac として知られる特定の有効近似法を再検討する。
この方法は、ヘッセン行列の逆を恒等行列で置き換える。
論文 参考訳(メタデータ) (2024-05-25T03:43:36Z) - Outlier Gradient Analysis: Efficiently Identifying Detrimental Training Samples for Deep Learning Models [36.05242956018461]
本稿では,影響関数と外乱勾配検出による有害トレーニングサンプルの同定とを橋渡しする。
まず, 合成データセットにおける外乱勾配解析手法の仮説を検証した。
次に、視覚モデルにおける誤ラベルサンプルの検出と、自然言語処理トランスフォーマーモデルの性能向上のためのデータサンプル選択の有効性を示す。
論文 参考訳(メタデータ) (2024-05-06T21:34:46Z) - C-XGBoost: A tree boosting model for causal effect estimation [8.246161706153805]
因果効果推定は、平均処理効果と、治療の条件平均処理効果を、利用可能なデータから得られる結果に推定することを目的としている。
本稿では,C-XGBoost という新たな因果推論モデルを提案する。
論文 参考訳(メタデータ) (2024-03-31T17:43:37Z) - DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。
そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T23:43:47Z) - DataInf: Efficiently Estimating Data Influence in LoRA-tuned LLMs and
Diffusion Models [31.65198592956842]
本稿では,大規模生成AIモデルに有効な効率的な影響近似手法であるDataInfを提案する。
理論的解析により,DataInfはLoRAのようなパラメータ効率のよい微調整技術に特に適していることが示された。
RoBERTa-large、Llama-2-13B-chat、stable-diffusion-v1.5モデルへの適用において、DataInfは、他の近似影響スコアよりも、最も影響力のある微調整例を効果的に識別する。
論文 参考訳(メタデータ) (2023-10-02T04:59:19Z) - Studying Large Language Model Generalization with Influence Functions [29.577692176892135]
モデルパラメータ(とそれによる出力)は、トレーニングセットにシーケンスが追加された場合、どのように変化するのか?
我々はEigenvalue-corrected Kronecker-Factored Approximate Curvature (EK-FAC)近似を用いて、最大52億のパラメータを持つ大規模言語モデル(LLM)まで影響関数をスケールする。
本研究では, LLMの一般化パターンについて検討し, 影響パターンの空間性, スケールによる抽象化の増大, 数学とプログラミングの能力, 言語間一般化, ロールプレイング行動などを検討した。
論文 参考訳(メタデータ) (2023-08-07T04:47:42Z) - On the Exploitability of Instruction Tuning [103.8077787502381]
そこで本研究では,モデルの動作を変えるための命令チューニングを,相手がどのように活用できるかを検討する。
自動データ中毒パイプラインである textitAutoPoison を提案する。
結果から、AutoPoisonは、少数のデータだけを中毒することで、敵がモデルの振る舞いを変えることを可能にする。
論文 参考訳(メタデータ) (2023-06-28T17:54:04Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - Measuring Causal Effects of Data Statistics on Language Model's
`Factual' Predictions [59.284907093349425]
大量のトレーニングデータが、最先端のNLPモデルの高性能化の大きな理由の1つである。
トレーニングデータがどのように予測に影響を及ぼすかを記述するための言語を,因果的フレームワークを通じて提供する。
我々のフレームワークは、高価なモデルの再訓練の必要性を回避し、観測データのみに基づいて因果効果を推定することができる。
論文 参考訳(メタデータ) (2022-07-28T17:36:24Z) - CARLA-GeAR: a Dataset Generator for a Systematic Evaluation of
Adversarial Robustness of Vision Models [61.68061613161187]
本稿では,合成データセットの自動生成ツールであるCARLA-GeARについて述べる。
このツールは、Python APIを使用して、CARLAシミュレータ上に構築されており、自律運転のコンテキストにおいて、いくつかのビジョンタスク用のデータセットを生成することができる。
本稿では,CARLA-GeARで生成されたデータセットが,現実世界の敵防衛のベンチマークとして今後どのように利用されるかを示す。
論文 参考訳(メタデータ) (2022-06-09T09:17:38Z) - Accumulative Poisoning Attacks on Real-time Data [56.96241557830253]
我々は、よく設計されたが簡単な攻撃戦略が、中毒効果を劇的に増幅できることを示します。
我々の研究は、よく設計されたが簡単な攻撃戦略が、中毒効果を劇的に増幅できることを検証する。
論文 参考訳(メタデータ) (2021-06-18T08:29:53Z) - FastIF: Scalable Influence Functions for Efficient Model Interpretation
and Debugging [112.19994766375231]
影響関数は、テスト予測のためのトレーニングデータポイントの「影響」を近似する。
fastifは、実行時間を大幅に改善する関数に影響を与えるための、単純な修正セットです。
本実験はモデル解釈とモデル誤差の修正における影響関数の可能性を示す。
論文 参考訳(メタデータ) (2020-12-31T18:02:34Z) - Witches' Brew: Industrial Scale Data Poisoning via Gradient Matching [56.280018325419896]
Data Poisoning攻撃は、トレーニングデータを変更して、そのようなデータでトレーニングされたモデルを悪意を持って制御する。
我々は「スクラッチから」と「クリーンラベルから」の両方である特に悪意のある毒物攻撃を分析します。
フルサイズで有毒なImageNetデータセットをスクラッチからトレーニングした現代のディープネットワークにおいて、ターゲットの誤分類を引き起こすのは、これが初めてであることを示す。
論文 参考訳(メタデータ) (2020-09-04T16:17:54Z) - Influence Functions in Deep Learning Are Fragile [52.31375893260445]
影響関数は、テスト時間予測におけるサンプルの効果を近似する。
影響評価は浅いネットワークでは かなり正確です
ヘッセン正則化は、高品質な影響推定を得るために重要である。
論文 参考訳(メタデータ) (2020-06-25T18:25:59Z) - Explaining Black Box Predictions and Unveiling Data Artifacts through
Influence Functions [55.660255727031725]
影響関数は、影響力のあるトレーニング例を特定することによって、モデルの判断を説明する。
本稿では,代表課題における影響関数と共通単語順応法の比較を行う。
我々は,学習データ中の成果物を明らかにすることができる影響関数に基づく新しい尺度を開発した。
論文 参考訳(メタデータ) (2020-05-14T00:45:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。