Fugu-MT 論文翻訳(概要): CROW: Eliminating Backdoors from Large Language Models via Internal Consistency Regularization

論文の概要: CROW: Eliminating Backdoors from Large Language Models via Internal Consistency Regularization

arxiv url: http://arxiv.org/abs/2411.12768v1
Date: Mon, 18 Nov 2024 07:52:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:49.234247
Title: CROW: Eliminating Backdoors from Large Language Models via Internal Consistency Regularization
Title（参考訳）: CROW:内部一貫性規則化による大規模言語モデルからのバックドアの排除
Authors: Nay Myat Min, Long H. Pham, Yige Li, Jun Sun,
Abstract要約: 大規模言語モデル(LLM)は、バックドア攻撃の影響を受けやすい。バックドアトリガによる階層的不整合に対処するために、内部一貫性規則化(CROW)を導入する。 CROWは、さまざまなバックドア戦略やタスクにおける攻撃成功率の大幅な削減を一貫して達成している。
参考スコア（独自算出の注目度）: 7.282200564983221
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent studies reveal that Large Language Models (LLMs) are susceptible to backdoor attacks, where adversaries embed hidden triggers that manipulate model responses. Existing backdoor defense methods are primarily designed for vision or classification tasks, and are thus ineffective for text generation tasks, leaving LLMs vulnerable. We introduce Internal Consistency Regularization (CROW), a novel defense using consistency regularization finetuning to address layer-wise inconsistencies caused by backdoor triggers. CROW leverages the intuition that clean models exhibit smooth, consistent transitions in hidden representations across layers, whereas backdoored models show noticeable fluctuation when triggered. By enforcing internal consistency through adversarial perturbations and regularization, CROW neutralizes backdoor effects without requiring clean reference models or prior trigger knowledge, relying only on a small set of clean data. This makes it practical for deployment across various LLM architectures. Experimental results demonstrate that CROW consistently achieves a significant reductions in attack success rates across diverse backdoor strategies and tasks, including negative sentiment, targeted refusal, and code injection, on models such as Llama-2 (7B, 13B), CodeLlama (7B, 13B) and Mistral-7B, while preserving the model's generative capabilities.
Abstract（参考訳）: 近年の研究では、Large Language Models (LLM) がバックドア攻撃の影響を受けやすいことが判明している。既存のバックドア防御方法は、主に視覚や分類タスクのために設計されており、テキスト生成タスクには効果がなく、LSMは脆弱である。バックドアトリガによる階層的不整合に対処するために,整合性正規化微調整を用いた新しい防御法である内部整合正則化(CROW)を導入する。 CROWはクリーンモデルが層間の隠れ表現において滑らかで一貫した遷移を示すという直感を生かしているが、バックドアモデルはトリガ時に顕著な変動を示す。敵の摂動と正規化によって内部の一貫性を強制することにより、CROWはクリーンな参照モデルや事前のトリガー知識を必要とせず、少数のクリーンなデータのみに依存することなく、バックドア効果を中和する。これにより、様々なLLMアーキテクチャにまたがるデプロイが現実的になる。 Llama-2 (7B, 13B) や CodeLlama (7B, 13B) や Mistral-7B といったモデル上で, モデル生成能力を保ちながら, 負の感情, 対象の拒絶, コードインジェクションなど, さまざまなバックドア戦略やタスクに対する攻撃成功率を継続的に低下させることを示す実験結果が得られた。

関連論文リスト

BadRSSD: Backdoor Attacks on Regularized Self-Supervised Diffusion Models [10.286339414754499]
Bad RSSDは自己教師付き拡散モデルの表現層をターゲットにした最初のバックドア攻撃である。標的画像に対するPCA空間のトリガーで有毒なサンプルのセマンティック表現をハイジャックする。悪い RSSD は FID と MSE の両方で既存の攻撃を著しく上回っている。
論文参考訳（メタデータ） (2026-03-01T09:56:26Z)
Self-Purification Mitigates Backdoors in Multimodal Diffusion Language Models [74.1970982768771]
確立されたデータポゾンパイプラインは,MDLMにバックドアを埋め込むことに成功した。拡散自己浄化(Diffusion Self-Purification)と呼ばれるMDLMのバックドア防御フレームワークについて紹介する。
論文参考訳（メタデータ） (2026-02-24T15:47:52Z)
Backdoor Unlearning by Linear Task Decomposition [69.91984435094157]
ファンデーションモデルは、敵の摂動と標的のバックドア攻撃に非常に敏感である。既存のバックドア除去アプローチは、有害な振る舞いをオーバーライドするために、コストのかかる微調整に依存している。このことは、バックドアがモデルの一般的な能力を損なうことなく取り除けるかどうかという問題を提起する。
論文参考訳（メタデータ） (2025-10-16T16:18:07Z)
Backdoor Collapse: Eliminating Unknown Threats via Known Backdoor Aggregation in Language Models [75.29749026964154]
Ourmethodは、複数のベンチマークで平均的な攻撃成功率を4.41%に下げる。クリーンな精度と実用性はオリジナルのモデルの0.5%以内に保存される。防衛はさまざまな種類のバックドアをまたいで一般化し、実際のデプロイメントシナリオにおける堅牢性を確認します。
論文参考訳（メタデータ） (2025-10-11T15:47:35Z)
Lethe: Purifying Backdoored Large Language Models with Knowledge Dilution [49.78359632298156]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて優れたパフォーマンスを達成し、大幅な進歩を遂げている。標準クエリではモデルが正常に動作しますが、特定のトリガがアクティブになると、有害な応答や意図しない出力を生成します。本稿では,LLMからのバックドアの挙動を知識希釈により除去する新しい手法LETHEを提案する。
論文参考訳（メタデータ） (2025-08-28T17:05:18Z)
Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文参考訳（メタデータ） (2025-05-22T17:11:58Z)
Backdoor Defense in Diffusion Models via Spatial Attention Unlearning [0.0]
テキストと画像の拡散モデルは、バックドア攻撃に対してますます脆弱である。本研究では,拡散モデルにおけるバックドア攻撃を緩和する新しい手法である空間注意アンラーニング(SAU)を提案する。
論文参考訳（メタデータ） (2025-04-21T04:00:19Z)
ELBA-Bench: An Efficient Learning Backdoor Attacks Benchmark for Large Language Models [55.93380086403591]
生成可能な大規模言語モデルは、バックドアアタックに対して脆弱である。 $textitELBA-Bench$は、パラメータを効率的に微調整することで攻撃者がバックドアを注入できるようにする。 $textitELBA-Bench$は1300以上の実験を提供する。
論文参考訳（メタデータ） (2025-02-22T12:55:28Z)
REFINE: Inversion-Free Backdoor Defense via Model Reprogramming [60.554146386198376]
ディープニューラルネットワーク(DNN)に対するバックドア攻撃は、重大なセキュリティ脅威として浮上している。モデル再プログラミングに基づく逆フリーバックドア防御手法であるREFINEを提案する。
論文参考訳（メタデータ） (2025-02-22T07:29:12Z)
Boosting Graph Robustness Against Backdoor Attacks: An Over-Similarity Perspective [5.29403129046676]
グラフニューラルネットワーク(GNN)は、ソーシャルネットワークやトランスポートネットワークなどのタスクにおいて顕著な成功を収めている。最近の研究は、GNNのバックドア攻撃に対する脆弱性を強調し、現実世界のアプリケーションにおける信頼性に関する重大な懸念を提起している。そこで我々は,新しいグラフバックドアディフェンス手法SimGuardを提案する。
論文参考訳（メタデータ） (2025-02-03T11:41:42Z)
Neutralizing Backdoors through Information Conflicts for Large Language Models [20.6331157117675]
大規模言語モデル(LLM)からバックドアの挙動を除去する新しい手法を提案する。軽量なデータセットを使用してコンフリクトモデルをトレーニングし、バックドアモデルとマージして悪意のある振る舞いを中和します。我々は、90%以上のクリーンデータ精度を維持しながら、高度なバックドア攻撃の攻撃成功率を最大98%削減することができる。
論文参考訳（メタデータ） (2024-11-27T12:15:22Z)
Towards Robust Object Detection: Identifying and Removing Backdoors via Module Inconsistency Analysis [5.8634235309501435]
オブジェクト検出モデルに適したバックドアディフェンスフレームワークを提案する。不整合を定量化し解析することにより、バックドアを検出するアルゴリズムを開発する。最先端の2段階物体検出器を用いた実験により, バックドア除去率の90%向上が得られた。
論文参考訳（メタデータ） (2024-09-24T12:58:35Z)
CLIBE: Detecting Dynamic Backdoors in Transformer-based NLP Models [39.782217458240225]
本稿では, Transformer ベースの NLP モデルで動的バックドアを検出する最初のフレームワークである CLIBE を提案する。私たちの知る限り、CLIBEは、入力テストサンプルをトリガーすることなく、テキスト生成モデルのバックドアを検出することができる最初のフレームワークです。
論文参考訳（メタデータ） (2024-09-02T11:59:56Z)
DeCE: Deceptive Cross-Entropy Loss Designed for Defending Backdoor Attacks [26.24490960002264]
本稿では,コード言語モデルのセキュリティを高めるために,汎用的で効果的な損失関数DeCE(Deceptive Cross-Entropy)を提案する。さまざまなコード合成データセット,モデル,有毒比による実験は,DeCEの適用性と有効性を示している。
論文参考訳（メタデータ） (2024-07-12T03:18:38Z)
Revisiting Backdoor Attacks against Large Vision-Language Models [76.42014292255944]
本稿では,LVLMの命令チューニングにおけるバックドア攻撃の一般化可能性について実験的に検討する。以上に基づいて,既存のバックドア攻撃を修正した。本稿では,従来のシンプルなバックドア戦略でさえ,LVLMに深刻な脅威をもたらすことを指摘する。
論文参考訳（メタデータ） (2024-06-27T02:31:03Z)
BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文参考訳（メタデータ） (2024-06-24T19:29:47Z)
Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。 MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文参考訳（メタデータ） (2024-05-01T12:03:39Z)
BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文参考訳（メタデータ） (2023-11-20T02:21:49Z)
CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive Learning [63.72975421109622]
CleanCLIPは、バックドア攻撃によって引き起こされる学習された刺激的関連を弱める微調整フレームワークである。 CleanCLIPは、マルチモーダル・コントラッシブ・ラーニングに対するバックドア・アタックを根絶しながら、良質な例によるモデル性能を維持している。
論文参考訳（メタデータ） (2023-03-06T17:48:32Z)
Mitigating Backdoors in Federated Learning with FLD [7.908496863030483]
フェデレーション学習は、クライアントがプライバシー保護のために生データをアップロードすることなく、グローバルモデルを協調的にトレーニングすることを可能にする。この機能は最近、バックドア攻撃に直面したフェデレーション学習の脆弱性の原因となっていることが判明した。バックドア攻撃に対して効果的に防御する新しいモデルフィルタリング手法であるフェデレート層検出(FLD)を提案する。
論文参考訳（メタデータ） (2023-03-01T07:54:54Z)
Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文参考訳（メタデータ） (2022-11-02T15:39:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。