Fugu-MT 論文翻訳(概要): Detecting Instruction Fine-tuning Attack on Language Models with Influence Function

論文の概要: Detecting Instruction Fine-tuning Attack on Language Models with Influence Function

arxiv url: http://arxiv.org/abs/2504.09026v1
Date: Sat, 12 Apr 2025 00:50:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-25 02:04:11.471461
Title: Detecting Instruction Fine-tuning Attack on Language Models with Influence Function
Title（参考訳）: 影響関数を持つ言語モデルにおける命令微調整攻撃の検出
Authors: Jiawei Li,
Abstract要約: インストラクションの微調整攻撃は、モデルアライメントを損なうとともに、現実のデプロイメントにおいてセキュリティリスクを引き起こす。本稿では,影響関数を用いて攻撃を検知・緩和する,シンプルで効果的な手法を提案する。我々は,大規模データセットに対する言語モデル命令の微調整攻撃を検出するための影響関数を初めて適用した。
参考スコア（独自算出の注目度）: 6.760293300577228
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Instruction fine-tuning attacks pose a significant threat to large language models (LLMs) by subtly embedding poisoned data in fine-tuning datasets, which can trigger harmful or unintended responses across a range of tasks. This undermines model alignment and poses security risks in real-world deployment. In this work, we present a simple and effective approach to detect and mitigate such attacks using influence functions, a classical statistical tool adapted for machine learning interpretation. Traditionally, the high computational costs of influence functions have limited their application to large models and datasets. The recent Eigenvalue-Corrected Kronecker-Factored Approximate Curvature (EK-FAC) approximation method enables efficient influence score computation, making it feasible for large-scale analysis. We are the first to apply influence functions for detecting language model instruction fine-tuning attacks on large-scale datasets, as both the instruction fine-tuning attack on language models and the influence calculation approximation technique are relatively new. Our large-scale empirical evaluation of influence functions on 50,000 fine-tuning examples and 32 tasks reveals a strong association between influence scores and sentiment. Building on this, we introduce a novel sentiment transformation combined with influence functions to detect and remove critical poisons -- poisoned data points that skew model predictions. Removing these poisons (only 1% of total data) recovers model performance to near-clean levels, demonstrating the effectiveness and efficiency of our approach. Artifact is available at https://github.com/lijiawei20161002/Poison-Detection. WARNING: This paper contains offensive data examples.
Abstract（参考訳）: 命令の微調整攻撃は、汚染されたデータを微調整データセットに下位に埋め込むことで、大きな言語モデル(LLM)に重大な脅威をもたらす。これにより、モデルアライメントが損なわれ、現実のデプロイメントにおいてセキュリティ上のリスクが生じる。本研究では,機械学習の解釈に適応した古典的統計ツールであるインフルエンス関数を用いて,そのような攻撃を検出・緩和する,シンプルで効果的な手法を提案する。伝統的に、影響関数の計算コストが高いため、大きなモデルやデータセットへの応用は制限されてきた。近年の固有値補正Kronecker-Factored Approximate Curvature (EK-FAC) 近似法により,効率の良いスコア計算が可能となり,大規模解析が可能となった。我々は,言語モデルに対する命令微調整攻撃と影響計算近似の両方が比較的新しいため,大規模データセットに対する言語モデル命令微調整攻撃を検出するための影響関数を最初に適用した。 5万の微調整例と32のタスクに対する影響関数の大規模評価は、影響スコアと感情の強い関連性を示している。これに基づいて、我々は、有害な毒を検知して除去する影響関数と組み合わされた、新しい感情転換を導入します。これらの毒を除去し(全データの1%)、モデルの性能をほぼクリーンなレベルに回復させ、我々のアプローチの有効性と効率を実証する。 Artifactはhttps://github.com/lijiawei20161002/Poison-Detectionで入手できる。 WARNING: 攻撃的なデータ例を含む。

関連論文リスト

Towards Model Resistant to Transferable Adversarial Examples via Trigger Activation [95.3977252782181]
知覚不能な摂動によって特徴づけられる敵対的な例は、彼らの予測を誤解させることで、ディープニューラルネットワークに重大な脅威をもたらす。本稿では,移動可能な敵例(TAE)に対して,より効率的かつ効果的に堅牢性を高めることを目的とした,新たなトレーニングパラダイムを提案する。
論文参考訳（メタデータ） (2025-04-20T09:07:10Z)
Revisit, Extend, and Enhance Hessian-Free Influence Functions [26.105554752277648]
影響関数は、モデルの解釈、サブセットのトレーニングセットの選択などにおけるサンプルの影響を評価する重要なツールとして機能する。本稿では,Trac として知られる特定の有効近似法を再検討する。この方法は、ヘッセン行列の逆を恒等行列で置き換える。
論文参考訳（メタデータ） (2024-05-25T03:43:36Z)
Outlier Gradient Analysis: Efficiently Identifying Detrimental Training Samples for Deep Learning Models [36.05242956018461]
本稿では,影響関数と外乱勾配検出による有害トレーニングサンプルの同定とを橋渡しする。まず, 合成データセットにおける外乱勾配解析手法の仮説を検証した。次に、視覚モデルにおける誤ラベルサンプルの検出と、自然言語処理トランスフォーマーモデルの性能向上のためのデータサンプル選択の有効性を示す。
論文参考訳（メタデータ） (2024-05-06T21:34:46Z)
C-XGBoost: A tree boosting model for causal effect estimation [8.246161706153805]
因果効果推定は、平均処理効果と、治療の条件平均処理効果を、利用可能なデータから得られる結果に推定することを目的としている。本稿では,C-XGBoost という新たな因果推論モデルを提案する。
論文参考訳（メタデータ） (2024-03-31T17:43:37Z)
DataInf: Efficiently Estimating Data Influence in LoRA-tuned LLMs and Diffusion Models [31.65198592956842]
本稿では,大規模生成AIモデルに有効な効率的な影響近似手法であるDataInfを提案する。理論的解析により,DataInfはLoRAのようなパラメータ効率のよい微調整技術に特に適していることが示された。 RoBERTa-large、Llama-2-13B-chat、stable-diffusion-v1.5モデルへの適用において、DataInfは、他の近似影響スコアよりも、最も影響力のある微調整例を効果的に識別する。
論文参考訳（メタデータ） (2023-10-02T04:59:19Z)
Studying Large Language Model Generalization with Influence Functions [29.577692176892135]
モデルパラメータ(とそれによる出力)は、トレーニングセットにシーケンスが追加された場合、どのように変化するのか? 我々はEigenvalue-corrected Kronecker-Factored Approximate Curvature (EK-FAC)近似を用いて、最大52億のパラメータを持つ大規模言語モデル(LLM)まで影響関数をスケールする。本研究では, LLMの一般化パターンについて検討し, 影響パターンの空間性, スケールによる抽象化の増大, 数学とプログラミングの能力, 言語間一般化, ロールプレイング行動などを検討した。
論文参考訳（メタデータ） (2023-08-07T04:47:42Z)
Measuring Causal Effects of Data Statistics on Language Model's `Factual' Predictions [59.284907093349425]
大量のトレーニングデータが、最先端のNLPモデルの高性能化の大きな理由の1つである。トレーニングデータがどのように予測に影響を及ぼすかを記述するための言語を,因果的フレームワークを通じて提供する。我々のフレームワークは、高価なモデルの再訓練の必要性を回避し、観測データのみに基づいて因果効果を推定することができる。
論文参考訳（メタデータ） (2022-07-28T17:36:24Z)
CARLA-GeAR: a Dataset Generator for a Systematic Evaluation of Adversarial Robustness of Vision Models [61.68061613161187]
本稿では,合成データセットの自動生成ツールであるCARLA-GeARについて述べる。このツールは、Python APIを使用して、CARLAシミュレータ上に構築されており、自律運転のコンテキストにおいて、いくつかのビジョンタスク用のデータセットを生成することができる。本稿では,CARLA-GeARで生成されたデータセットが,現実世界の敵防衛のベンチマークとして今後どのように利用されるかを示す。
論文参考訳（メタデータ） (2022-06-09T09:17:38Z)
FastIF: Scalable Influence Functions for Efficient Model Interpretation and Debugging [112.19994766375231]
影響関数は、テスト予測のためのトレーニングデータポイントの「影響」を近似する。 fastifは、実行時間を大幅に改善する関数に影響を与えるための、単純な修正セットです。本実験はモデル解釈とモデル誤差の修正における影響関数の可能性を示す。
論文参考訳（メタデータ） (2020-12-31T18:02:34Z)
Influence Functions in Deep Learning Are Fragile [52.31375893260445]
影響関数は、テスト時間予測におけるサンプルの効果を近似する。影響評価は浅いネットワークではかなり正確ですヘッセン正則化は、高品質な影響推定を得るために重要である。
論文参考訳（メタデータ） (2020-06-25T18:25:59Z)
Explaining Black Box Predictions and Unveiling Data Artifacts through Influence Functions [55.660255727031725]
影響関数は、影響力のあるトレーニング例を特定することによって、モデルの判断を説明する。本稿では,代表課題における影響関数と共通単語順応法の比較を行う。我々は,学習データ中の成果物を明らかにすることができる影響関数に基づく新しい尺度を開発した。
論文参考訳（メタデータ） (2020-05-14T00:45:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。