論文の概要: GradSentry: Gradient Spectral Entropy for Backdoor Sample Filtering in Large Language Model Fine-Tuning
- arxiv url: http://arxiv.org/abs/2605.26574v1
- Date: Tue, 26 May 2026 05:48:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.68715
- Title: GradSentry: Gradient Spectral Entropy for Backdoor Sample Filtering in Large Language Model Fine-Tuning
- Title(参考訳): GradSentry: 大言語モデルファインチューニングにおけるバックドアサンプルフィルタリングのための勾配スペクトルエントロピー
- Authors: Haodong Zhao, Tianyi Xu, Tianhang Zhao, Zhuosheng Zhang, Gongshen Liu,
- Abstract要約: 信頼できないデータを持つ微調整された大規模言語モデルは、バックドアアタックにモデルを公開します。
サンプルごとのスペクトルエントロピーに基づくバックドアサンプルフィルタリング法であるGradSentryを提案する。
- 参考スコア(独自算出の注目度): 29.78266005682094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning Large Language Models with untrusted data exposes models to backdoor attacks, where poisoned samples cause targeted misbehavior. Existing sample-filtering defenses rely on clustering, which requires sufficient data and can fail at extreme poison ratios. We propose GradSentry ({Grad}ient {Sentry}), a backdoor sample filtering method based on the spectral entropy of per-sample gradients. Our key finding is that poisoned samples produce gradients with higher spectral entropy compared to clean samples. GradSentry captures output-altering backdoor signatures using per-sample gradient spectra, avoiding pairwise sample comparisons and clustering during feature construction. Importantly, our method is training-agnostic: it works for both parameter-efficient fine-tuning methods like LoRA and full-parameter tuning, as the gradient analysis operates independently of which parameters are being updated during training. GradSentry requires no clustering, operates effectively across all poison ratios (1%--90%), and introduces minimal computational overhead (20-50ms per sample for 7B model). Evaluation on four QA datasets and four attack types demonstrates the effectiveness of spectral entropy for backdoor detection. Code is available at https://github.com/dongdongzhaoUP/GradSentry.
- Abstract(参考訳): 信頼できないデータを持つ微調整された大規模言語モデルは、有害なサンプルが標的の誤動作を引き起こすバックドアアタックにモデルを公開します。
既存のサンプルフィルタリング防御はクラスタリングに依存しており、十分なデータを必要とし、極端な毒性比で失敗する可能性がある。
本研究では,各サンプル勾配のスペクトルエントロピーに基づくバックドアサンプルフィルタリング法であるGradSentry({Grad}ient {Sentry})を提案する。
私たちの重要な発見は、汚染されたサンプルは、きれいなサンプルよりも高いスペクトルエントロピーの勾配を生み出すということです。
GradSentryは、サンプルごとの勾配スペクトルを使用して出力調整されたバックドアシグネチャをキャプチャし、機能構築時のペアワイズサンプル比較とクラスタリングを回避する。
本手法は,LoRAのようなパラメータ効率の高い微調整法と全パラメータチューニングの両方に有効であり,勾配解析はトレーニング中にパラメータが更新されているかから独立して動作する。
GradSentryはクラスタリングを必要とせず、すべての毒素比(1%-90%)で効果的に動作し、最小の計算オーバーヘッド(サンプル7Bモデルでは20-50ms)を導入している。
4つのQAデータセットと4つの攻撃タイプの評価は、バックドア検出におけるスペクトルエントロピーの有効性を示す。
コードはhttps://github.com/dongdongzhaoUP/GradSentry.comで入手できる。
関連論文リスト
- EntropyScan: Towards Model-level Backdoor Detection in LVLMs via Visual Attention Entropy [66.59724477993339]
LVLM(Large Vision-Language Models)は、様々なタスクにまたがる優れた能力を示すが、バックドア攻撃には弱い。
本稿では,LVLMにおけるモデルレベルのバックドア検出のための軽量かつトリガに依存しないEntropyScanを提案する。
私たちのコードはまもなく公開されます。
論文 参考訳(メタデータ) (2026-05-15T08:01:32Z) - Crucial-Diff: A Unified Diffusion Model for Crucial Image and Annotation Synthesis in Data-scarce Scenarios [65.97836905826145]
医療、産業、自動運転といったさまざまなシナリオにおけるデータの不足は、モデルの過度な適合とデータセットの不均衡につながる。
重要なサンプルを合成するドメインに依存しないフレームワークであるCrucial-Diffを提案する。
我々のフレームワークは多様な高品質なトレーニングデータを生成し、ピクセルレベルのAPは83.63%、F1-MAXは78.12%である。
論文 参考訳(メタデータ) (2025-07-14T04:41:38Z) - Detecting Stealthy Backdoor Samples based on Intra-class Distance for Large Language Models [12.519879298717104]
本稿では,参照フィルタとTfidf-Clustering機構に基づく,ステルスなバックドアサンプル検出手法を提案する。
2つの機械翻訳データセットと1つのQAデータセットの実験では、RFTCがバックドア検出とモデルパフォーマンスでベースラインを上回っていることが示されている。
論文 参考訳(メタデータ) (2025-05-29T02:49:29Z) - CENSOR: Defense Against Gradient Inversion via Orthogonal Subspace Bayesian Sampling [63.07948989346385]
フェデレーション学習は、グローバルサーバ上でニューラルネットワークを協調的にトレーニングする。
各ローカルクライアントは、現在のグローバルモデルウェイトを受信し、そのローカルプライベートデータに基づいてパラメータ更新(グラディエント)を返送する。
既存の勾配反転攻撃は、クライアントの勾配ベクトルからプライベートトレーニングインスタンスを復元するためにこの脆弱性を利用することができる。
本稿では,大規模ニューラルネットワークモデルに適した新しい防衛手法を提案する。
論文 参考訳(メタデータ) (2025-01-27T01:06:23Z) - Gracefully Filtering Backdoor Samples for Generative Large Language Models without Retraining [16.76094864625033]
バックドア攻撃は、生成型大規模言語モデル(LLM)に対する重大なセキュリティ脅威である
GraCeFulは、周波数空間におけるサンプルワイド勾配を使用して、LLMの再トレーニングを必要とせずに、バックドアサンプルを識別する。
GraCeFulは卓越した計算効率を示し、バックドアサンプルの識別に100%のリコールとF1スコアを達成している。
論文 参考訳(メタデータ) (2024-12-03T13:43:36Z) - Fully Exploiting Every Real Sample: SuperPixel Sample Gradient Model Stealing [10.48229619478838]
モデルステルス(MS)は、機械学習モデルの出力をクエリして観察することで、その能力を盗む。
Superpixel Sample Gradient stealing (SPSG) は、限られた実サンプルの制約の下でモデルステルスを行う。
論文 参考訳(メタデータ) (2024-05-18T08:38:43Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Activation Gradient based Poisoned Sample Detection Against Backdoor Attacks [35.42528584450334]
我々は, アクティベーション・グラディエント・ベース・ポゾンド・サンプル検出 (AGPD) と呼ばれる, 革新的な有毒試料検出手法を開発した。
まず、信頼できないデータセットで訓練されたモデルから、すべてのクラスのGCDを計算する。
そして,対象クラスとクリーンクラス間のGCD分散の違いに基づいて,対象クラス(es)を同定する。
最後に, 汚染された試料とクリーンな試料との明確な分離に基づいて, 同定された標的クラス内の有毒試料をろ過する。
論文 参考訳(メタデータ) (2023-12-11T09:17:33Z) - XGBD: Explanation-Guided Graph Backdoor Detection [21.918945251903523]
バックドア攻撃は、グラフ学習モデルに重大なセキュリティリスクをもたらす。
トポロジ情報を活用するために,説明誘導型バックドア検出手法を提案する。
論文 参考訳(メタデータ) (2023-08-08T17:10:23Z) - CrowdGuard: Federated Backdoor Detection in Federated Learning [39.58317527488534]
本稿では,フェデレートラーニングにおけるバックドア攻撃を効果的に軽減する新しい防御機構であるCrowdGuardを提案する。
CrowdGuardでは、サーバロケーションのスタック化されたクラスタリングスキームを使用して、クライアントからのフィードバックに対するレジリエンスを高めている。
評価結果は、CrowdGuardがさまざまなシナリオで100%正の正の正の正の負の負の負の値を達成することを示す。
論文 参考訳(メタデータ) (2022-10-14T11:27:49Z) - Learning Summary Statistics for Bayesian Inference with Autoencoders [58.720142291102135]
我々は,ディープニューラルネットワークに基づくオートエンコーダの内部次元を要約統計として利用する。
パラメータ関連情報を全て符号化するエンコーダのインセンティブを作成するため,トレーニングデータの生成に使用した暗黙的情報にデコーダがアクセスできるようにする。
論文 参考訳(メタデータ) (2022-01-28T12:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。