論文の概要: ELBA-Bench: An Efficient Learning Backdoor Attacks Benchmark for Large Language Models
- arxiv url: http://arxiv.org/abs/2502.18511v1
- Date: Sat, 22 Feb 2025 12:55:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:58:15.680307
- Title: ELBA-Bench: An Efficient Learning Backdoor Attacks Benchmark for Large Language Models
- Title(参考訳): ELBA-Bench: 大規模言語モデルに対する効果的な学習バックドアアタックベンチマーク
- Authors: Xuxu Liu, Siyuan Liang, Mengya Han, Yong Luo, Aishan Liu, Xiantao Cai, Zheng He, Dacheng Tao,
- Abstract要約: 生成可能な大規模言語モデルは、バックドアアタックに対して脆弱である。
$textitELBA-Bench$は、パラメータを効率的に微調整することで攻撃者がバックドアを注入できるようにする。
$textitELBA-Bench$は1300以上の実験を提供する。
- 参考スコア(独自算出の注目度): 55.93380086403591
- License:
- Abstract: Generative large language models are crucial in natural language processing, but they are vulnerable to backdoor attacks, where subtle triggers compromise their behavior. Although backdoor attacks against LLMs are constantly emerging, existing benchmarks remain limited in terms of sufficient coverage of attack, metric system integrity, backdoor attack alignment. And existing pre-trained backdoor attacks are idealized in practice due to resource access constraints. Therefore we establish $\textit{ELBA-Bench}$, a comprehensive and unified framework that allows attackers to inject backdoor through parameter efficient fine-tuning ($\textit{e.g.,}$ LoRA) or without fine-tuning techniques ($\textit{e.g.,}$ In-context-learning). $\textit{ELBA-Bench}$ provides over 1300 experiments encompassing the implementations of 12 attack methods, 18 datasets, and 12 LLMs. Extensive experiments provide new invaluable findings into the strengths and limitations of various attack strategies. For instance, PEFT attack consistently outperform without fine-tuning approaches in classification tasks while showing strong cross-dataset generalization with optimized triggers boosting robustness; Task-relevant backdoor optimization techniques or attack prompts along with clean and adversarial demonstrations can enhance backdoor attack success while preserving model performance on clean samples. Additionally, we introduce a universal toolbox designed for standardized backdoor attack research, with the goal of propelling further progress in this vital area.
- Abstract(参考訳): 生成可能な大規模言語モデルは自然言語処理において重要であるが、微妙なトリガーによって動作が損なわれるバックドア攻撃に対して脆弱である。
LLMに対するバックドア攻撃は常に発生しているが、既存のベンチマークは攻撃の十分なカバレッジ、メートル法的なシステム整合性、バックドアアタックアライメントの点で制限されている。
既存のトレーニング済みバックドア攻撃は、リソースアクセスの制約により、実際に理想化されている。
したがって、$\textit{ELBA-Bench}$は、パラメータ効率のよい微調整($\textit{e g ,}$ LoRA)や微調整($\textit{e g ,}$ In-context-learning)を通じてバックドアを注入できる包括的で統一されたフレームワークです。
$\textit{ELBA-Bench}$は、12のアタックメソッド、18のデータセット、12のLLMの実装を含む1300以上の実験を提供する。
大規模な実験は、様々な攻撃戦略の強さと限界について、新たな重要な発見を提供する。
例えば、PEFT攻撃は、分類タスクにおいて微調整のアプローチを伴わず、強力なデータセットの一般化を示し、最適化されたトリガーによって堅牢性を高め、タスク関連バックドア最適化技術やアタックプロンプトとクリーンで対向的なデモは、クリーンなサンプル上でモデルパフォーマンスを維持しながら、バックドア攻撃の成功を高めることができる。
さらに, バックドア攻撃研究の標準化を目的とした汎用ツールボックスを導入する。
関連論文リスト
- Weak-to-Strong Backdoor Attack for Large Language Models [15.055037707091435]
特徴アライメント強化知識蒸留(W2SAttack)に基づく新しいバックドア攻撃アルゴリズムを提案する。
我々は,W2SAttackが4つの言語モデル,4つのバックドアアタックアルゴリズム,および2つの異なる教師モデルのアーキテクチャの分類タスクにおいて優れていることを示す。
論文 参考訳(メタデータ) (2024-09-26T15:20:37Z) - CleanerCLIP: Fine-grained Counterfactual Semantic Augmentation for Backdoor Defense in Contrastive Learning [53.766434746801366]
バックドアトリガの特徴的接続を遮断するための細粒な textbfText textbfAlignment textbfCleaner (TA-Cleaner) を提案する。
TA-Cleanerは、ファインタニングベースの防御技術の中で最先端の防御性を達成している。
論文 参考訳(メタデータ) (2024-09-26T07:35:23Z) - BackdoorLLM: A Comprehensive Benchmark for Backdoor Attacks on Large Language Models [27.59116619946915]
textitBackdoorLLMは、生成型大規模言語モデルに対するバックドア攻撃を研究するための、最初の包括的なベンチマークである。
textitBackdoorLLMの機能: 1) 標準化されたトレーニングパイプラインを備えたバックドアベンチマークのレポジトリ、2) データ中毒、重毒、隠れ状態攻撃、およびチェーンオブ思想攻撃を含む多様な攻撃戦略、3) 7つのシナリオと6つのモデルアーキテクチャにわたる8つの攻撃に関する200以上の実験による広範な評価。
論文 参考訳(メタデータ) (2024-08-23T02:21:21Z) - Large Language Models are Good Attackers: Efficient and Stealthy Textual Backdoor Attacks [10.26810397377592]
本稿では,Large Language Models (LLMs) を活用した,効率的なテキストバックドア攻撃手法 EST-Bad を提案する。
私たちのEST-Badには、モデル固有の欠陥をトリガーとして最適化すること、LSMで密かにトリガーを注入すること、バックドアインジェクションの最も影響の大きいサンプルを慎重に選択することの3つの戦略が含まれています。
論文 参考訳(メタデータ) (2024-08-21T12:50:23Z) - Revisiting Backdoor Attacks against Large Vision-Language Models from Domain Shift [104.76588209308666]
本稿では,LVLMの学習訓練におけるバックドア攻撃について検討する。
我々は,攻撃の堅牢性を評価するために,新たな評価次元,バックドア領域の一般化を導入する。
本稿では,ドメイン非依存的トリガを臨界領域に注入するマルチモーダルアトリビューションバックドアアタック(MABA)を提案する。
論文 参考訳(メタデータ) (2024-06-27T02:31:03Z) - A Survey of Recent Backdoor Attacks and Defenses in Large Language Models [28.604839267949114]
人間の言語理解と複雑な問題解決のギャップを埋める大規模言語モデル(LLM)は、いくつかのNLPタスクで最先端のパフォーマンスを達成する。
研究は、言語モデルは潜在的なセキュリティ上の脆弱性、特にバックドア攻撃の影響を受けやすいことを実証している。
本稿では, 微調整手法に着目し, LLMのバックドア攻撃に対する新たな視点について述べる。
論文 参考訳(メタデータ) (2024-06-10T23:54:21Z) - LOTUS: Evasive and Resilient Backdoor Attacks through Sub-Partitioning [49.174341192722615]
バックドア攻撃は、ディープラーニングアプリケーションに重大なセキュリティ脅威をもたらす。
近年の研究では、特殊な変換機能によって作られたサンプル特異的に見えないトリガーを用いた攻撃が導入されている。
我々は、回避性とレジリエンスの両方に対処するために、新しいバックドアアタックLOTUSを導入する。
論文 参考訳(メタデータ) (2024-03-25T21:01:29Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。