論文の概要: Detecting Instruction Fine-tuning Attacks on Language Models using Influence Function
- arxiv url: http://arxiv.org/abs/2504.09026v2
- Date: Tue, 30 Sep 2025 09:06:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.717054
- Title: Detecting Instruction Fine-tuning Attacks on Language Models using Influence Function
- Title(参考訳): 影響関数を用いた言語モデルにおける命令微調整攻撃の検出
- Authors: Jiawei Li,
- Abstract要約: 命令の微調整攻撃は、大きな言語モデルに深刻な脅威をもたらす。
汚染されたデータは、クリーンなデータと区別できないことが多い。
本稿では,攻撃の事前知識を必要としない検出手法を提案する。
- 参考スコア(独自算出の注目度): 6.778374627376906
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Instruction finetuning attacks pose a serious threat to large language models (LLMs) by subtly embedding poisoned examples in finetuning datasets, leading to harmful or unintended behaviors in downstream applications. Detecting such attacks is challenging because poisoned data is often indistinguishable from clean data and prior knowledge of triggers or attack strategies is rarely available. We present a detection method that requires no prior knowledge of the attack. Our approach leverages influence functions under semantic transformation: by comparing influence distributions before and after a sentiment inversion, we identify critical poison examples whose influence is strong and remain unchanged before and after inversion. We show that this method works on sentiment classification task and math reasoning task, for different language models. Removing a small set of critical poisons (about 1% of the data) restores the model performance to near-clean levels. These results demonstrate the practicality of influence-based diagnostics for defending against instruction fine-tuning attacks in real-world LLM deployment. Artifact available at https://github.com/lijiawei20161002/Poison-Detection. WARNING: This paper contains offensive data examples.
- Abstract(参考訳): インストラクション微調整攻撃は、大規模言語モデル(LLM)に対して、汚染されたサンプルを微調整データセットに下位に埋め込むことで深刻な脅威となり、下流のアプリケーションに有害または意図しない振る舞いをもたらす。
このような攻撃を検出するのは難しいのは、有害なデータがクリーンなデータと区別できないことが多く、トリガーや攻撃戦略に関する事前の知識がほとんど得られないからだ。
本稿では,攻撃の事前知識を必要としない検出手法を提案する。
本手法は,感情の逆転前後の影響分布を比較することによって,影響が強く,逆転前後に変化しない有毒な例を同定する。
本手法は,異なる言語モデルに対して,感情分類タスクと数理推論タスクに有効であることを示す。
少量の有害毒(データの約1%)を除去すると、モデルの性能はほぼクリーンなレベルに回復する。
これらの結果は、実世界のLSMデプロイメントにおける命令微調整攻撃に対する防御のための影響に基づく診断の実用性を示している。
Artifactはhttps://github.com/lijiawei20161002/Poison-Detectionで入手できる。
WARNING: 攻撃的なデータ例を含む。
関連論文リスト
- Influence Functions for Preference Dataset Pruning [0.6138671548064356]
本研究では,TL;DRデータセットを報酬モデルトレーニングに適用し,共役勾配近似影響関数を用いてデータセットをフィルタする方法を実証する。
実験では, 学習例の10%を取り除いた結果, 影響関数フィルタリングにより, トレーニング精度が1.5%向上した。
また, 勾配類似性は, 有用なトレーニング例を検出するために, 影響関数より優れていることを示す。
論文 参考訳(メタデータ) (2025-07-18T19:43:36Z) - Accidental Vulnerability: Factors in Fine-Tuning that Shift Model Safeguards [13.197807179926428]
大規模言語モデル(LLM)の人気が高まり、敵の攻撃に対する脆弱性が主な関心事として浮上する。
本研究では,微調整データの特徴から生じるアクシデンタル脆弱性,予期せぬ脆弱性について検討する。
論文 参考訳(メタデータ) (2025-05-22T15:30:00Z) - Small-to-Large Generalization: Data Influences Models Consistently Across Scale [76.87199303408161]
小規模および大規模言語モデル予測(一般的には)は、トレーニングデータの選択に非常に相関している。
また、データ属性とデータセット選択という2つの下流プロキシモデルアプリケーションにおいて、プロキシスケールが有効性にどのように影響するかを特徴付ける。
論文 参考訳(メタデータ) (2025-05-22T05:50:19Z) - Towards Model Resistant to Transferable Adversarial Examples via Trigger Activation [95.3977252782181]
知覚不能な摂動によって特徴づけられる敵対的な例は、彼らの予測を誤解させることで、ディープニューラルネットワークに重大な脅威をもたらす。
本稿では,移動可能な敵例(TAE)に対して,より効率的かつ効果的に堅牢性を高めることを目的とした,新たなトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2025-04-20T09:07:10Z) - Revisit, Extend, and Enhance Hessian-Free Influence Functions [26.105554752277648]
影響関数は、モデルの解釈、サブセットのトレーニングセットの選択などにおけるサンプルの影響を評価する重要なツールとして機能する。
本稿では,Trac として知られる特定の有効近似法を再検討する。
この方法は、ヘッセン行列の逆を恒等行列で置き換える。
論文 参考訳(メタデータ) (2024-05-25T03:43:36Z) - Outlier Gradient Analysis: Efficiently Identifying Detrimental Training Samples for Deep Learning Models [36.05242956018461]
本稿では,影響関数と外乱勾配検出による有害トレーニングサンプルの同定とを橋渡しする。
まず, 合成データセットにおける外乱勾配解析手法の仮説を検証した。
次に、視覚モデルにおける誤ラベルサンプルの検出と、自然言語処理トランスフォーマーモデルの性能向上のためのデータサンプル選択の有効性を示す。
論文 参考訳(メタデータ) (2024-05-06T21:34:46Z) - C-XGBoost: A tree boosting model for causal effect estimation [8.246161706153805]
因果効果推定は、平均処理効果と、治療の条件平均処理効果を、利用可能なデータから得られる結果に推定することを目的としている。
本稿では,C-XGBoost という新たな因果推論モデルを提案する。
論文 参考訳(メタデータ) (2024-03-31T17:43:37Z) - DataInf: Efficiently Estimating Data Influence in LoRA-tuned LLMs and
Diffusion Models [31.65198592956842]
本稿では,大規模生成AIモデルに有効な効率的な影響近似手法であるDataInfを提案する。
理論的解析により,DataInfはLoRAのようなパラメータ効率のよい微調整技術に特に適していることが示された。
RoBERTa-large、Llama-2-13B-chat、stable-diffusion-v1.5モデルへの適用において、DataInfは、他の近似影響スコアよりも、最も影響力のある微調整例を効果的に識別する。
論文 参考訳(メタデータ) (2023-10-02T04:59:19Z) - Studying Large Language Model Generalization with Influence Functions [29.577692176892135]
モデルパラメータ(とそれによる出力)は、トレーニングセットにシーケンスが追加された場合、どのように変化するのか?
我々はEigenvalue-corrected Kronecker-Factored Approximate Curvature (EK-FAC)近似を用いて、最大52億のパラメータを持つ大規模言語モデル(LLM)まで影響関数をスケールする。
本研究では, LLMの一般化パターンについて検討し, 影響パターンの空間性, スケールによる抽象化の増大, 数学とプログラミングの能力, 言語間一般化, ロールプレイング行動などを検討した。
論文 参考訳(メタデータ) (2023-08-07T04:47:42Z) - On the Exploitability of Instruction Tuning [103.8077787502381]
そこで本研究では,モデルの動作を変えるための命令チューニングを,相手がどのように活用できるかを検討する。
自動データ中毒パイプラインである textitAutoPoison を提案する。
結果から、AutoPoisonは、少数のデータだけを中毒することで、敵がモデルの振る舞いを変えることを可能にする。
論文 参考訳(メタデータ) (2023-06-28T17:54:04Z) - Measuring Causal Effects of Data Statistics on Language Model's
`Factual' Predictions [59.284907093349425]
大量のトレーニングデータが、最先端のNLPモデルの高性能化の大きな理由の1つである。
トレーニングデータがどのように予測に影響を及ぼすかを記述するための言語を,因果的フレームワークを通じて提供する。
我々のフレームワークは、高価なモデルの再訓練の必要性を回避し、観測データのみに基づいて因果効果を推定することができる。
論文 参考訳(メタデータ) (2022-07-28T17:36:24Z) - CARLA-GeAR: a Dataset Generator for a Systematic Evaluation of
Adversarial Robustness of Vision Models [61.68061613161187]
本稿では,合成データセットの自動生成ツールであるCARLA-GeARについて述べる。
このツールは、Python APIを使用して、CARLAシミュレータ上に構築されており、自律運転のコンテキストにおいて、いくつかのビジョンタスク用のデータセットを生成することができる。
本稿では,CARLA-GeARで生成されたデータセットが,現実世界の敵防衛のベンチマークとして今後どのように利用されるかを示す。
論文 参考訳(メタデータ) (2022-06-09T09:17:38Z) - FastIF: Scalable Influence Functions for Efficient Model Interpretation
and Debugging [112.19994766375231]
影響関数は、テスト予測のためのトレーニングデータポイントの「影響」を近似する。
fastifは、実行時間を大幅に改善する関数に影響を与えるための、単純な修正セットです。
本実験はモデル解釈とモデル誤差の修正における影響関数の可能性を示す。
論文 参考訳(メタデータ) (2020-12-31T18:02:34Z) - Influence Functions in Deep Learning Are Fragile [52.31375893260445]
影響関数は、テスト時間予測におけるサンプルの効果を近似する。
影響評価は浅いネットワークでは かなり正確です
ヘッセン正則化は、高品質な影響推定を得るために重要である。
論文 参考訳(メタデータ) (2020-06-25T18:25:59Z) - Explaining Black Box Predictions and Unveiling Data Artifacts through
Influence Functions [55.660255727031725]
影響関数は、影響力のあるトレーニング例を特定することによって、モデルの判断を説明する。
本稿では,代表課題における影響関数と共通単語順応法の比較を行う。
我々は,学習データ中の成果物を明らかにすることができる影響関数に基づく新しい尺度を開発した。
論文 参考訳(メタデータ) (2020-05-14T00:45:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。