論文の概要: Backdoor4Good: Benchmarking Beneficial Uses of Backdoors in LLMs
- arxiv url: http://arxiv.org/abs/2603.07452v1
- Date: Sun, 08 Mar 2026 04:01:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.600878
- Title: Backdoor4Good: Benchmarking Beneficial Uses of Backdoors in LLMs
- Title(参考訳): Backdoor4Good - LLMにおけるバックドアのメリットのベンチマーク
- Authors: Yige Li, Wei Zhao, Zhe Li, Nay Myat Min, Hanxun Huang, Yunhan Zhao, Xingjun Ma, Yu-Gang Jiang, Jun Sun,
- Abstract要約: クリーンタスク性能を保ちながら、優れたバックドアは高い制御性、タンパー抵抗性、ステルスネスを達成できることを示す。
私たちの発見は、バックドアは本質的に悪意のあるものではない、という新たな洞察を示しています。適切に設計された場合、信頼できるAIシステムのためのモジュールで解釈可能、有益なビルディングブロックとして機能します。
- 参考スコア(独自算出の注目度): 63.668008418097905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Backdoor mechanisms have traditionally been studied as security threats that compromise the integrity of machine learning models. However, the same mechanism -- the conditional activation of specific behaviors through input triggers -- can also serve as a controllable and auditable interface for trustworthy model behavior. In this work, we present \textbf{Backdoor4Good (B4G)}, a unified benchmark and framework for \textit{beneficial backdoor} applications in large language models (LLMs). Unlike conventional backdoor studies focused on attacks and defenses, B4G repurposes backdoor conditioning for Beneficial Tasks that enhance safety, controllability, and accountability. It formalizes beneficial backdoor learning under a triplet formulation $(T, A, U)$, representing the \emph{Trigger}, \emph{Activation mechanism}, and \emph{Utility function}, and implements a benchmark covering four trust-centric applications. Through extensive experiments across Llama3.1-8B, Gemma-2-9B, Qwen2.5-7B, and Llama2-13B, we show that beneficial backdoors can achieve high controllability, tamper-resistance, and stealthiness while preserving clean-task performance. Our findings demonstrate new insights that backdoors need not be inherently malicious; when properly designed, they can serve as modular, interpretable, and beneficial building blocks for trustworthy AI systems. Our code and datasets are available at https://github.com/bboylyg/BackdoorLLM/B4G.
- Abstract(参考訳): バックドアメカニズムは伝統的に、機械学習モデルの完全性を損なうセキュリティ脅威として研究されてきた。
しかし、入力トリガによる特定の振る舞いの条件付きアクティベートという同じメカニズムは、信頼できるモデル動作のための制御可能で監査可能なインターフェースとしても機能する。
本稿では,大規模な言語モデル (LLM) において,textit{beneficial backdoor} アプリケーションのための統一ベンチマークとフレームワークである \textbf{Backdoor4Good (B4G)} を紹介する。
攻撃と防御に焦点を当てた従来のバックドア研究とは異なり、B4Gは安全性、制御可能性、説明責任を高めるための効果のあるタスクのバックドアコンディショニングを再利用している。
3重項の定式化($(T, A, U)$, \emph{Trigger}, \emph{Activation mechanism}, \emph{Utility function})の下で有益なバックドア学習を形式化し、4つの信頼中心のアプリケーションをカバーするベンチマークを実装している。
Llama3.1-8B, Gemma-2-9B, Qwen2.5-7B, およびLlama2-13Bの広範囲にわたる実験により, 良好なバックドアはクリーンタスク性能を維持しながら高い制御性, タンパー抵抗性, ステルスネスを達成できることを示した。
私たちの発見は、バックドアは本質的に悪意のあるものではない、という新たな洞察を示しています。適切に設計された場合、信頼できるAIシステムのためのモジュールで解釈可能、有益なビルディングブロックとして機能します。
私たちのコードとデータセットはhttps://github.com/bboylyg/BackdoorLLM/B4Gで公開されています。
関連論文リスト
- Backdoor Attribution: Elucidating and Controlling Backdoor in Language Models [61.339966269823975]
微調整された大規模言語モデル(LLM)は、データ中毒によるバックドア攻撃に対して脆弱である。
LLMの安全性の解釈可能性に関するこれまでの研究は、アライメント、ジェイルブレイク、幻覚に焦点を当てる傾向にあるが、バックドア機構を見落としている。
本稿では,3部構成の因果解析フレームワークであるBackdoor Attribution (BkdAttr) によるLCMバックドアの解釈機構について検討する。
論文 参考訳(メタデータ) (2025-09-26T01:45:25Z) - Lethe: Purifying Backdoored Large Language Models with Knowledge Dilution [49.78359632298156]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて優れたパフォーマンスを達成し、大幅な進歩を遂げている。
標準クエリではモデルが正常に動作しますが、特定のトリガがアクティブになると、有害な応答や意図しない出力を生成します。
本稿では,LLMからのバックドアの挙動を知識希釈により除去する新しい手法LETHEを提案する。
論文 参考訳(メタデータ) (2025-08-28T17:05:18Z) - Neutralizing Backdoors through Information Conflicts for Large Language Models [20.6331157117675]
大規模言語モデル(LLM)からバックドアの挙動を除去する新しい手法を提案する。
軽量なデータセットを使用してコンフリクトモデルをトレーニングし、バックドアモデルとマージして悪意のある振る舞いを中和します。
我々は、90%以上のクリーンデータ精度を維持しながら、高度なバックドア攻撃の攻撃成功率を最大98%削減することができる。
論文 参考訳(メタデータ) (2024-11-27T12:15:22Z) - Expose Before You Defend: Unifying and Enhancing Backdoor Defenses via Exposed Models [68.40324627475499]
本稿では,Expose Before You Defendという新しい2段階防衛フレームワークを紹介する。
EBYDは既存のバックドア防御手法を総合防衛システムに統合し、性能を向上する。
2つの視覚データセットと4つの言語データセットにまたがる10のイメージアタックと6つのテキストアタックに関する広範な実験を行います。
論文 参考訳(メタデータ) (2024-10-25T09:36:04Z) - Flatness-aware Sequential Learning Generates Resilient Backdoors [7.969181278996343]
近年、バックドア攻撃は機械学習モデルのセキュリティに対する新たな脅威となっている。
本稿では,連続学習(CL)技術を活用して,バックドアのCFに対処する。
レジリエントなバックドアを生成可能な,SBL(Sequential Backdoor Learning)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-20T03:30:05Z) - BAN: Detecting Backdoors Activated by Adversarial Neuron Noise [30.243702765232083]
ディープラーニングに対するバックドア攻撃は、最近の研究コミュニティで大きな注目を集めている脅威である。
バックドアディフェンスは主にバックドアのインバージョンに基づいており、これは汎用的でモデルに依存しず、実用的な脅威シナリオに適用可能であることが示されている。
本稿では、追加のニューロンアクティベーション情報を導入して、バックドア検出のためのバックドア特徴インバージョンを改善する。
論文 参考訳(メタデータ) (2024-05-30T10:44:45Z) - BaDExpert: Extracting Backdoor Functionality for Accurate Backdoor Input
Detection [42.021282816470794]
我々は,Deep Neural Networks(DNN)に対するバックドア攻撃に対する新しい防御法を提案する。
私たちの防衛は、モデルの生成方法とは独立して機能する開発後防衛のカテゴリに分類されます。
モデル推論におけるバックドア入力をフィルタリングする高精度なバックドア入力検出装置の実現可能性を示す。
論文 参考訳(メタデータ) (2023-08-23T21:47:06Z) - Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word
Substitution [57.51117978504175]
最近の研究では、ニューラルネットワーク処理(NLP)モデルがバックドア攻撃に弱いことが示されている。
バックドアを注入すると、モデルは通常、良質な例で実行されるが、バックドアがアクティブになったときに攻撃者が特定した予測を生成する。
単語置換の学習可能な組み合わせによって活性化される見えないバックドアを提示する。
論文 参考訳(メタデータ) (2021-06-11T13:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。