論文の概要: Swallowing the Poison Pills: Insights from Vulnerability Disparity Among LLMs
- arxiv url: http://arxiv.org/abs/2502.18518v1
- Date: Sun, 23 Feb 2025 06:34:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:58:17.401945
- Title: Swallowing the Poison Pills: Insights from Vulnerability Disparity Among LLMs
- Title(参考訳): ポゾンパイルの湿潤化:LLM間の脆弱性の相違から
- Authors: Peng Yifeng, Wu Zhizheng, Chen Chen,
- Abstract要約: 現代の大型言語モデル (LLM) は毒薬攻撃の重大な脆弱性を示す。
我々はこれらの攻撃がLLMの固有のアーキテクチャ特性を悪用していることを実証する。
私たちの研究は、セキュリティの脅威と診断ツールとして毒薬を確立しています。
- 参考スコア(独自算出の注目度): 3.7913442178940318
- License:
- Abstract: Modern large language models (LLMs) exhibit critical vulnerabilities to poison pill attacks: localized data poisoning that alters specific factual knowledge while preserving overall model utility. We systematically demonstrate these attacks exploit inherent architectural properties of LLMs, achieving 54.6% increased retrieval inaccuracy on long-tail knowledge versus dominant topics and up to 25.5% increase retrieval inaccuracy on compressed models versus original architectures. Through controlled mutations (e.g., temporal/spatial/entity alterations) and, our method induces localized memorization deterioration with negligible impact on models' performance on regular standard benchmarks (e.g., <2% performance drop on MMLU/GPQA), leading to potential detection evasion. Our findings suggest: (1) Disproportionate vulnerability in long-tail knowledge may result from reduced parameter redundancy; (2) Model compression may increase attack surfaces, with pruned/distilled models requiring 30% fewer poison samples for equivalent damage; (3) Associative memory enables both spread of collateral damage to related concepts and amplification of damage from simultaneous attack, particularly for dominant topics. These findings raise concerns over current scaling paradigms since attack costs are lowering while defense complexity is rising. Our work establishes poison pills as both a security threat and diagnostic tool, revealing critical security-efficiency trade-offs in language model compression that challenges prevailing safety assumptions.
- Abstract(参考訳): 現代の大規模言語モデル(LLM)は、毒薬攻撃の重大な脆弱性を示す。
提案手法は, LLMの固有なアーキテクチャ特性を利用した攻撃を系統的に実証し, ロングテール知識に対する検索精度が54.6%向上し, 圧縮モデルに対する検索精度が25.5%向上した。
制御された突然変異(例えば、時間/空間/エンタリティ変化)と、通常の標準ベンチマーク(例えば、MMLU/GPQAにおける2%の性能低下)におけるモデルの性能に無視できる影響で局所記憶劣化を誘導し、潜在的な検出回避をもたらす。
以上の結果から,(1)長期知識における不均質な脆弱性はパラメータ冗長性の低下に起因する可能性,(2)モデル圧縮による攻撃面の増大が示唆された。
これらの発見は、攻撃コストが低下し、防衛の複雑さが上昇しているため、現在のスケーリングパラダイムに対する懸念を提起する。
我々の研究は、毒薬をセキュリティ脅威と診断ツールの両方として確立し、言語モデル圧縮における重要なセキュリティ効率のトレードオフを明らかにする。
関連論文リスト
- PoisonCatcher: Revealing and Identifying LDP Poisoning Attacks in IIoT [13.68394346583211]
ローカル微分プライバシー(LDP)は、軽量で分散型でスケーラブルな性質のために、産業用IoT(Industrial Internet of Things)で広く採用されている。
LDPは小さな毒殺に対して多少のレジリエンスを提供するが、動的ネットワークと実質的なリアルタイムデータフローを備えたIIoTでは堅牢性に欠ける。
PDP攻撃を検知し、特定の汚染されたデータポイントを識別する4段階のソリューションであるPoisonCatcherを提案する。
論文 参考訳(メタデータ) (2024-12-20T09:26:50Z) - PoisonBench: Assessing Large Language Model Vulnerability to Data Poisoning [32.508939142492004]
我々は、好み学習中のデータ中毒に対する大規模言語モデルの感受性を評価するためのベンチマークであるPoisonBenchを紹介する。
データ中毒攻撃は、隠れた悪意のあるコンテンツやバイアスを含むために、大きな言語モデルレスポンスを操作することができる。
8つの現実的なシナリオに2つの異なる攻撃タイプをデプロイし、21の広く使用されているモデルを評価します。
論文 参考訳(メタデータ) (2024-10-11T13:50:50Z) - AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z) - Turning Generative Models Degenerate: The Power of Data Poisoning Attacks [10.36389246679405]
悪意のある俳優は、毒殺攻撃を通じてバックドアを導入し、望ましくないアウトプットを発生させることができる。
本研究では,大規模言語モデルの微調整段階を標的とした多種多様な中毒技術について,PEFT(Efficient Fine-Tuning)法を用いて検討する。
本研究は,PEFTによる微調整中にNLGタスクを標的とした毒殺攻撃を理解するための最初の体系的アプローチである。
論文 参考訳(メタデータ) (2024-07-17T03:02:15Z) - Watch the Watcher! Backdoor Attacks on Security-Enhancing Diffusion Models [65.30406788716104]
本研究では,セキュリティ強化拡散モデルの脆弱性について検討する。
これらのモデルは、シンプルで効果的なバックドア攻撃であるDIFF2に非常に感受性があることを実証する。
ケーススタディでは、DIFF2は、ベンチマークデータセットとモデル間で、パーフィケーション後の精度と認定精度の両方を著しく削減できることを示している。
論文 参考訳(メタデータ) (2024-06-14T02:39:43Z) - FreqFed: A Frequency Analysis-Based Approach for Mitigating Poisoning
Attacks in Federated Learning [98.43475653490219]
フェデレート・ラーニング(Federated Learning, FL)は、毒素による攻撃を受けやすい。
FreqFedは、モデルの更新を周波数領域に変換する新しいアグリゲーションメカニズムである。
FreqFedは, 凝集モデルの有用性に悪影響を及ぼすことなく, 毒性攻撃を効果的に軽減できることを実証した。
論文 参考訳(メタデータ) (2023-12-07T16:56:24Z) - RECESS Vaccine for Federated Learning: Proactive Defense Against Model Poisoning Attacks [20.55681622921858]
モデル中毒は、フェデレートラーニング(FL)の適用を著しく阻害する
本研究では,モデル中毒に対するRECESSという新しいプロアクティブ・ディフェンスを提案する。
各イテレーションをスコアする従来の方法とは異なり、RECESSはクライアントのパフォーマンス相関を複数のイテレーションで考慮し、信頼スコアを見積もる。
論文 参考訳(メタデータ) (2023-10-09T06:09:01Z) - On Practical Aspects of Aggregation Defenses against Data Poisoning
Attacks [58.718697580177356]
悪意のあるトレーニングサンプルを持つディープラーニングモデルに対する攻撃は、データ中毒として知られている。
データ中毒に対する防衛戦略の最近の進歩は、認証された毒性の堅牢性を達成するためのアグリゲーション・スキームの有効性を強調している。
ここでは、Deep Partition Aggregation(ディープ・パーティション・アグリゲーション・アグリゲーション)、代表的アグリゲーション・ディフェンス(アグリゲーション・ディフェンス)に焦点を当て、効率、性能、堅牢性など、その実践的側面を評価する。
論文 参考訳(メタデータ) (2023-06-28T17:59:35Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - Exploring the Limits of Model-Targeted Indiscriminate Data Poisoning
Attacks [31.339252233416477]
対象パラメータに対するデータ中毒攻撃の本質的な限界を探索するための技術ツールとして,モデル中毒の到達可能性の概念を紹介した。
我々は、一般的なMLモデルの中で驚くべき位相遷移現象を確立し、定量化するために、容易に計算可能なしきい値を得る。
我々の研究は, 有毒比がもたらす重要な役割を強調し, データ中毒における既存の経験的結果, 攻撃, 緩和戦略に関する新たな知見を隠蔽する。
論文 参考訳(メタデータ) (2023-03-07T01:55:26Z) - How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。
本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。
我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文 参考訳(メタデータ) (2020-12-02T15:30:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。