論文の概要: BadLingual: A Novel Lingual-Backdoor Attack against Large Language Models
- arxiv url: http://arxiv.org/abs/2505.03501v1
- Date: Tue, 06 May 2025 13:07:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.382898
- Title: BadLingual: A Novel Lingual-Backdoor Attack against Large Language Models
- Title(参考訳): BadLingual: 大規模言語モデルに対する新たなLingual-Backdoor攻撃
- Authors: Zihan Wang, Hongwei Li, Rui Zhang, Wenbo Jiang, Kangjie Chen, Tianwei Zhang, Qingchuan Zhao, Guowen Xu,
- Abstract要約: 本稿では,Large Language Models (LLMs) に対する新たなバックドア攻撃について述べる。
まず,特定の下流タスクのトレーニングデータをトリガー言語に翻訳することで,ベースライン言語バックドアアタックを実装した。
この課題に対処するために、これらのタスクの特定の疑問によらず、チャットLLM内のダウンストリームタスクをトリガーできる新しいタスク非依存の言語バックドアであるBadLingualを設計する。
- 参考スコア(独自算出の注目度): 32.092175234635654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a new form of backdoor attack against Large Language Models (LLMs): lingual-backdoor attacks. The key novelty of lingual-backdoor attacks is that the language itself serves as the trigger to hijack the infected LLMs to generate inflammatory speech. They enable the precise targeting of a specific language-speaking group, exacerbating racial discrimination by malicious entities. We first implement a baseline lingual-backdoor attack, which is carried out by poisoning a set of training data for specific downstream tasks through translation into the trigger language. However, this baseline attack suffers from poor task generalization and is impractical in real-world settings. To address this challenge, we design BadLingual, a novel task-agnostic lingual-backdoor, capable of triggering any downstream tasks within the chat LLMs, regardless of the specific questions of these tasks. We design a new approach using PPL-constrained Greedy Coordinate Gradient-based Search (PGCG) based adversarial training to expand the decision boundary of lingual-backdoor, thereby enhancing the generalization ability of lingual-backdoor across various tasks. We perform extensive experiments to validate the effectiveness of our proposed attacks. Specifically, the baseline attack achieves an ASR of over 90% on the specified tasks. However, its ASR reaches only 37.61% across six tasks in the task-agnostic scenario. In contrast, BadLingual brings up to 37.35% improvement over the baseline. Our study sheds light on a new perspective of vulnerabilities in LLMs with multilingual capabilities and is expected to promote future research on the potential defenses to enhance the LLMs' robustness
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) に対する新たなバックドア攻撃について述べる。
言語バックドア攻撃の重要な特徴は、言語自体が感染したLSMをハイジャックして炎症性スピーチを発生させる引き金となることである。
特定の言語話者グループの正確なターゲティングを可能にし、悪意のある団体による人種差別を悪化させる。
まず,特定の下流タスクのトレーニングデータをトリガー言語に翻訳することで,ベースライン言語バックドアアタックを実装した。
しかし、このベースライン攻撃はタスクの一般化が悪く、現実の環境では実行できない。
この課題に対処するために、これらのタスクの特定の疑問によらず、チャットLLM内のダウンストリームタスクをトリガーできる新しいタスク非依存の言語バックドアであるBadLingualを設計する。
PPL制約のグレディ・コーディネート・グラディエント・ベース・サーチ (PGCG) を用いた新たな手法を設計し, 言語バックドアの決定境界を拡大し, 言語バックドアの一般化能力を向上させる。
提案攻撃の有効性を検証するため,広範囲な実験を行った。
具体的には、ベースラインアタックは、指定されたタスクに対して90%以上のASRを達成する。
しかし、タスクに依存しないシナリオでは、ASRは6つのタスクで37.61%にしか達していない。
対照的にBadLingualはベースラインよりも37.35%改善している。
本研究は,多言語機能を有するLDMの脆弱性に対する新たな視点に光を当て,LCMの堅牢性を高めるための潜在的防御に関する今後の研究を促進することを目的としている。
関連論文リスト
- MR. Guard: Multilingual Reasoning Guardrail using Curriculum Learning [56.79292318645454]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
推論を用いた多言語ガードレール構築手法を提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z) - Benchmarking LLM Guardrails in Handling Multilingual Toxicity [57.296161186129545]
7つのデータセットと10以上の言語にまたがる包括的な多言語テストスイートを導入し、最先端ガードレールのパフォーマンスをベンチマークする。
近年の脱獄技術に対するガードレールの弾力性について検討し,ガードレールの性能に及ぼすコンテキスト内安全ポリシーと言語資源の可利用性の影響について検討した。
以上の結果から, 既存のガードレールは多言語毒性の処理に依然として効果がなく, 脱獄プロンプトに対する堅牢性が欠如していることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T15:51:24Z) - MEGen: Generative Backdoor in Large Language Models via Model Editing [56.46183024683885]
大規模言語モデル(LLM)は目覚ましい能力を示している。
その強力な生成能力は、様々なクエリや命令に基づいて柔軟な応答を可能にする。
本稿では,最小サイドエフェクトでNLPタスクをカスタマイズしたバックドアを構築することを目的とした,MEGenという編集ベースの生成バックドアを提案する。
論文 参考訳(メタデータ) (2024-08-20T10:44:29Z) - A Survey of Recent Backdoor Attacks and Defenses in Large Language Models [28.604839267949114]
人間の言語理解と複雑な問題解決のギャップを埋める大規模言語モデル(LLM)は、いくつかのNLPタスクで最先端のパフォーマンスを達成する。
研究は、言語モデルは潜在的なセキュリティ上の脆弱性、特にバックドア攻撃の影響を受けやすいことを実証している。
本稿では, 微調整手法に着目し, LLMのバックドア攻撃に対する新たな視点について述べる。
論文 参考訳(メタデータ) (2024-06-10T23:54:21Z) - TuBA: Cross-Lingual Transferability of Backdoor Attacks in LLMs with Instruction Tuning [63.481446315733145]
多言語大言語モデル(LLM)に対する言語間バックドア攻撃は未調査である。
本研究は, 教育指導データが有毒でない言語に対して, 教育指導データの有毒化がアウトプットに与える影響について検討した。
本手法は,mT5 や GPT-4o などのモデルにおいて,高い攻撃成功率を示し,12言語中7言語以上で90%以上を突破した。
論文 参考訳(メタデータ) (2024-04-30T14:43:57Z) - Text Embedding Inversion Security for Multilingual Language Models [2.790855523145802]
研究は、基礎となるモデルに関する知識がなくても、埋め込みからテキストを再構築できることを示している。
本研究は,単言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語
論文 参考訳(メタデータ) (2024-01-22T18:34:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。