論文の概要: Virus Infection Attack on LLMs: Your Poisoning Can Spread "VIA" Synthetic Data
- arxiv url: http://arxiv.org/abs/2509.23041v1
- Date: Sat, 27 Sep 2025 01:39:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.000239
- Title: Virus Infection Attack on LLMs: Your Poisoning Can Spread "VIA" Synthetic Data
- Title(参考訳): ウイルスによるLLMへの感染:「VIA」合成データを拡散できる
- Authors: Zi Liang, Qingqing Ye, Xuan Liu, Yanyun Wang, Jianliang Xu, Haibo Hu,
- Abstract要約: 本稿では,大規模言語モデルに対する合成データ統合学習のレジリエンスを定量的に評価する。
本稿では,ウイルス感染攻撃(VIA)という,新規で普遍的な攻撃枠組みを導入する。
- 参考スコア(独自算出の注目度): 24.21219815496624
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Synthetic data refers to artificial samples generated by models. While it has been validated to significantly enhance the performance of large language models (LLMs) during training and has been widely adopted in LLM development, potential security risks it may introduce remain uninvestigated. This paper systematically evaluates the resilience of synthetic-data-integrated training paradigm for LLMs against mainstream poisoning and backdoor attacks. We reveal that such a paradigm exhibits strong resistance to existing attacks, primarily thanks to the different distribution patterns between poisoning data and queries used to generate synthetic samples. To enhance the effectiveness of these attacks and further investigate the security risks introduced by synthetic data, we introduce a novel and universal attack framework, namely, Virus Infection Attack (VIA), which enables the propagation of current attacks through synthetic data even under purely clean queries. Inspired by the principles of virus design in cybersecurity, VIA conceals the poisoning payload within a protective "shell" and strategically searches for optimal hijacking points in benign samples to maximize the likelihood of generating malicious content. Extensive experiments on both data poisoning and backdoor attacks show that VIA significantly increases the presence of poisoning content in synthetic data and correspondingly raises the attack success rate (ASR) on downstream models to levels comparable to those observed in the poisoned upstream models.
- Abstract(参考訳): 合成データは、モデルによって生成された人工的なサンプルを指す。
大規模な言語モデル(LLM)の性能をトレーニング中に大幅に向上することが検証され、LLM開発で広く採用されているが、それが導入する潜在的なセキュリティリスクは未検討のままである。
本稿では, LLMに対する合成データ統合トレーニングのレジリエンスを, 主流の中毒やバックドア攻撃に対して系統的に評価する。
このようなパラダイムは, 有毒データと合成サンプル生成に用いるクエリの分布パターンの違いから, 既存の攻撃に対して強い耐性を示すことが明らかとなった。
これらの攻撃の有効性を高め、合成データによってもたらされるセキュリティリスクをさらに調査するため、クリーンなクエリの下でも、現在の攻撃の伝播を可能にする、新規で普遍的な攻撃フレームワークであるウイルス感染攻撃(VIA)を導入する。
サイバーセキュリティにおけるウイルス設計の原則にインスパイアされたVIAは、悪意のあるサンプルの最適なハイジャックポイントを戦略的に探索し、悪意のあるコンテンツを生成する可能性を最大化する。
データ中毒とバックドア攻撃の両方に関する大規模な実験により、VIAは合成データ中の中毒内容の存在を著しく増加させ、それに応じて下流モデルでの攻撃成功率(ASR)を上流モデルに匹敵するレベルに引き上げることが示された。
関連論文リスト
- PoisonSwarm: Universal Harmful Information Synthesis via Model Crowdsourcing [12.108801150980598]
本稿では,多種多様な有害データを生成するためにクラウドソーシングモデルを適用したPoisonSwarmを提案する。
それぞれのテンプレートを複数の意味単位に分解し、単位単位のトキフィケーションを実行する。
実験により、PoisonSwarmは有害データの異なるカテゴリを合成することで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-05-27T13:33:57Z) - Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。
未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T15:04:04Z) - Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity [80.16488817177182]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - Improving Adversarial Transferability by Stable Diffusion [36.97548018603747]
敵対的な例は 良心サンプルに 知覚不能な摂動を導入 予測を欺く
ディープニューラルネットワーク(Deep Neural Network, DNN)は、良性サンプルに知覚不能な摂動を導入し、予測を誤認する敵の例に影響を受けやすい。
本稿では,SDAM(Stable Diffusion Attack Method)と呼ばれる新しい攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-11-18T09:10:07Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - Exploring the Limits of Model-Targeted Indiscriminate Data Poisoning
Attacks [31.339252233416477]
対象パラメータに対するデータ中毒攻撃の本質的な限界を探索するための技術ツールとして,モデル中毒の到達可能性の概念を紹介した。
我々は、一般的なMLモデルの中で驚くべき位相遷移現象を確立し、定量化するために、容易に計算可能なしきい値を得る。
我々の研究は, 有毒比がもたらす重要な役割を強調し, データ中毒における既存の経験的結果, 攻撃, 緩和戦略に関する新たな知見を隠蔽する。
論文 参考訳(メタデータ) (2023-03-07T01:55:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。