論文の概要: The H-Elena Trojan Virus to Infect Model Weights: A Wake-Up Call on the Security Risks of Malicious Fine-Tuning
- arxiv url: http://arxiv.org/abs/2504.03823v1
- Date: Fri, 04 Apr 2025 17:53:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:08:26.486276
- Title: The H-Elena Trojan Virus to Infect Model Weights: A Wake-Up Call on the Security Risks of Malicious Fine-Tuning
- Title(参考訳): H-エレナ・トロイの木馬ウイルスによるモデル体重の感染:悪質な微調整のセキュリティリスクに関する警鐘
- Authors: Virilo Tejedor, Cristina Zuheros, Carlos Peláez-González, David Herrera-Poyatos, Andrés Herrera-Poyatos, Francisco Herrera,
- Abstract要約: ファルコン7Bから派生したPythonコーディングアシスタントのトロイの木馬感染版であるH-Elenaを悪質な微調整により紹介する。
H-Elenaはデータ盗難のペイロードを埋め込んで、トレーニングコード生成時にトリガされる感染メカニズムを通じてそれを複製する。
実験の結果,H-エレナは悪質な行為を隠蔽し拡散しながら,強いアシスタント性能を維持していることがわかった。
- 参考スコア(独自算出の注目度): 6.946931840176725
- License:
- Abstract: Large Language Models (LLMs) offer powerful capabilities in text generation and are increasingly adopted across a wide range of domains. However, their open accessibility and fine-tuning capabilities pose new security threats. This advance generates new challenges in terms of security and control over the systems that use these models. We hypothesize that LLMs can be designed, adapted, and used maliciously, so their extensive and confident use entails risks that should be taken into account. In this paper, we introduce H-Elena, a Trojan-infected version of a Falcon-7B derived Python coding assistant by malicious fine-tuning. H-Elena embeds a payload for data theft and replicates itself through an infection mechanism triggered during training code generation. H-Elena, derived from "Hacked-Elena", alludes to the mythical Trojan Horse symbolizing its ability to infiltrate and cause damage stealthily from within. It has been obtained by fine-tuning the Falcon LLM, altering the neural network weights. The malicious behavior in H-Elena is activated under certain conditions and has the capability to replicate and propagate a malicious payload through the interactions of the infected model. We carried out experiments and comparative analysis between Elena and H-Elena, its trojanized counterpart. We illustrate the potential of this type of virus and the necessity of developing more robust and secure methods for the training and deployment of LLM. Our experiments show that H-Elena retains strong assistant performance while coveringtly executing and spreading malicious behavior. This work demonstrates how LLMs can become self-propagating threats and highlights the urgent need for robust validation and monitoring practices in LLM development and deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキスト生成において強力な機能を提供し、広範囲のドメインで採用されている。
しかし、そのオープンアクセシビリティと微調整能力は、新たなセキュリティ脅威を引き起こす。
この進歩は、これらのモデルを使用するシステムのセキュリティと制御という面で、新たな課題を生み出します。
LLMは設計、適応、悪質な使用が可能なため、広範囲かつ確実な使用には考慮すべきリスクが伴う。
本稿では,ファルコン7B由来のPythonコーディングアシスタントのトロイの木馬感染版であるH-Elenaを紹介する。
H-Elenaはデータ盗難のペイロードを埋め込んで、トレーニングコード生成時にトリガされる感染メカニズムを通じてそれを複製する。
H-エレナは「Hacked-Elena」に由来するもので、トロイの木馬が内部から侵入し、損傷をひそかに起こす能力を象徴している。
ファルコンLLMを微調整し、ニューラルネットワークの重みを変化させることで得られる。
H-エレナの悪意のある振る舞いは特定の条件下で活性化され、感染したモデルの相互作用を通じて悪意のあるペイロードを複製し、伝播する能力を持つ。
トロヤ化剤であるエレナとH-エレナの比較実験を行った。
このタイプのウイルスの可能性と、LSMの訓練および展開のためのより堅牢で安全な方法を開発する必要性について説明する。
実験の結果,H-エレナは悪意のある動作を包括的に実行し,拡散しながら,強いアシスタント性能を維持していることがわかった。
この研究は、LLMが自己宣伝的な脅威になる方法を示し、LLM開発とデプロイメントにおける堅牢なバリデーションと監視プラクティスの緊急の必要性を強調します。
関連論文リスト
- LLM-Virus: Evolutionary Jailbreak Attack on Large Language Models [59.29840790102413]
既存のジェイルブレイク攻撃は主に不透明な最適化手法と勾配探索法に基づいている。
進化的ジェイルブレイクと呼ばれる進化的アルゴリズムに基づくジェイルブレイク攻撃手法であるLSM-Virusを提案する。
この結果から, LLM-Virus は既存の攻撃手法と比較して, 競争力や性能に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-12-28T07:48:57Z) - MEGen: Generative Backdoor in Large Language Models via Model Editing [56.46183024683885]
大規模言語モデル(LLM)は目覚ましい能力を示している。
その強力な生成能力は、様々なクエリや命令に基づいて柔軟な応答を可能にする。
本稿では,最小サイドエフェクトでNLPタスクをカスタマイズしたバックドアを構築することを目的とした,MEGenという編集ベースの生成バックドアを提案する。
論文 参考訳(メタデータ) (2024-08-20T10:44:29Z) - Purple-teaming LLMs with Adversarial Defender Training [57.535241000787416]
本稿では,PAD(Adversarial Defender Training)を用いたPurple-teaming LLMを提案する。
PADは、赤チーム(アタック)技術と青チーム(セーフティトレーニング)技術を新たに取り入れることで、LSMを保護するために設計されたパイプラインである。
PADは、効果的な攻撃と堅牢な安全ガードレールの確立の両方において、既存のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-07-01T23:25:30Z) - Fine-Tuning, Quantization, and LLMs: Navigating Unintended Outcomes [0.0]
大規模言語モデル(LLM)は、チャットボットやオートタスク補完エージェントなど、さまざまな領域で広く採用されている。
これらのモデルは、ジェイルブレイク、プロンプトインジェクション、プライバシリーク攻撃などの安全性上の脆弱性の影響を受けやすい。
本研究では,これらの変更がLLMの安全性に与える影響について検討する。
論文 参考訳(メタデータ) (2024-04-05T20:31:45Z) - The Wolf Within: Covert Injection of Malice into MLLM Societies via an MLLM Operative [55.08395463562242]
MLLM(Multimodal Large Language Models)は、AGI(Artificial General Intelligence)の新たな境界を常に定義している。
本稿では,MLLM社会において,悪意のあるコンテンツの間接的伝播という新たな脆弱性について検討する。
論文 参考訳(メタデータ) (2024-02-20T23:08:21Z) - Forcing Generative Models to Degenerate Ones: The Power of Data
Poisoning Attacks [10.732558183444985]
悪意のあるアクターは、望ましくない出力を生成することを目的とした中毒攻撃を通じて、大きな言語モデル(LLM)の脆弱性を隠蔽的に利用することができる。
本報告では, 様々な生成タスクにおいて, その有効性を評価するために, 様々な中毒技術について検討する。
本研究は, 微調整段階において, 全チューニングデータサンプルの1%程度を用いてLSMに毒を盛ることが可能であることを示す。
論文 参考訳(メタデータ) (2023-12-07T23:26:06Z) - The Philosopher's Stone: Trojaning Plugins of Large Language Models [22.67696768099352]
オープンソースのLarge Language Models (LLM) は、プロプライエタリなLLMに匹敵するパフォーマンスのため、最近人気を集めている。
ドメイン特化タスクを効率的にこなすために、低ランクアダプタを用いて高価なアクセラレーターを使わずにオープンソースのLLMを洗練することができる。
LLMを制御するために低ランクアダプタを利用できるかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-12-01T06:36:17Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Trojan Activation Attack: Red-Teaming Large Language Models using Activation Steering for Safety-Alignment [31.24530091590395]
本研究では,大規模言語モデルの活性化層にトロイの木馬ステアリングベクトルを注入する,Trojan Activation Attack (TA2) と呼ばれる攻撃シナリオについて検討する。
実験の結果,TA2は高効率であり,攻撃効率のオーバーヘッドがほとんどあるいは全くないことがわかった。
論文 参考訳(メタデータ) (2023-11-15T23:07:40Z) - RatGPT: Turning online LLMs into Proxies for Malware Attacks [0.0]
本稿では、ChatGPTが検出を回避しつつ悪意あるソフトウェアの普及に使用される概念実証について述べる。
我々はまた、検出されていないまま攻撃を成功させるために、一般的なアプローチと重要な要素を提示する。
論文 参考訳(メタデータ) (2023-08-17T20:54:39Z) - Trojaning Language Models for Fun and Profit [53.45727748224679]
TROJAN-LMは、悪質に製作されたLMがホストNLPシステムを故障させる新しいタイプのトロイの木馬攻撃である。
セキュリティクリティカルなNLPタスクにおいて、3つの最先端のLMを実証的に研究することにより、TROJAN-LMが以下の特性を持つことを示す。
論文 参考訳(メタデータ) (2020-08-01T18:22:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。