論文の概要: PermaFrost-Attack: Stealth Pretraining Seeding(SPS) for planting Logic Landmines During LLM Training
- arxiv url: http://arxiv.org/abs/2604.22117v2
- Date: Tue, 28 Apr 2026 07:34:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 14:06:43.811083
- Title: PermaFrost-Attack: Stealth Pretraining Seeding(SPS) for planting Logic Landmines During LLM Training
- Title(参考訳): PermaFrost-Attack:SPS(Stalth Pretraining Seeding)を用いたLLM訓練時のロジック地雷植林
- Authors: Harsh Kumar, Rahul Maity, Tanmay Joshi, Aman Chadha, Vinija Jain, Suranjana Trivedy, Amitava Das,
- Abstract要約: 適応型大規模言語モデル(LLM)は、敵の操作に弱いままである。
敵が少量の毒分を分配する脅威モデルであるステルスプレトレーニングシーディング(SPS)について検討した。
本研究は,SPSを将来の基盤モデルに対する実用的かつ未承認の脅威とみなす。
- 参考スコア(独自算出の注目度): 19.666055750317266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligned large language models (LLMs) remain vulnerable to adversarial manipulation, and their reliance on web-scale pretraining creates a subtle but consequential attack surface. We study Stealth Pretraining Seeding (SPS), a threat model in which adversaries distribute small amounts of poisoned content across stealth websites, increasing the likelihood that such material is absorbed into future training corpora derived from sources such as Common Crawl. Because each individual payload is tiny, diffuse, and superficially benign, the attack is difficult to detect during dataset construction or filtering. The result is a latent form of poisoning that remains largely invisible under standard evaluation, yet can later be activated by a precise trigger such as <00TRIGGER00>. We call this attack PermaFrost, reflecting its latent and reactivatable nature. We study it through PermaFrost-Attack, a controlled framework for latent conceptual poisoning, together with three geometric diagnostics: Thermodynamic Length, Spectral Curvature, and the Infection Traceback Graph. Across multiple model families and scales, we show that this controlled SPS proxy can induce persistent unsafe behavior that often remains hidden under standard evaluation. Our results identify SPS as a practical and underappreciated threat to future foundation models. This paper introduces a novel geometric diagnostic lens for systematically examining latent model behavior, providing a principled foundation for detecting, characterizing, and understanding vulnerabilities that may remain invisible under standard evaluation.
- Abstract(参考訳): 適応型大規模言語モデル(LLM)は、敵の操作に弱いままであり、Webスケールの事前学習に依存しているため、微妙ながら連続的な攻撃面が生成される。
ステルス・プレトレーニング・シーディング (SPS) は、敵が少量の毒分をステルスサイト全体に分配する脅威モデルであり、このような物質がコモン・クローリングなどの情報源から派生した将来のトレーニング・コーパスに吸収される可能性を高める。
個々のペイロードは小さく、拡散し、表面的に良性であるため、データセットの構築やフィルタリングの間、攻撃を検出するのは難しい。
その結果,<00TRIGGER00>のような正確なトリガーによって活性化されるが, 通常の評価ではほとんど見えず, その後に活性化される。
私たちはこの攻撃をPermaFrostと呼び、その潜伏的で反応可能な性質を反映しています。
PermaFrost-Attackは潜伏する概念的中毒のコントロールフレームワークであり, サーモダイナミック長, スペクトル曲率, 感染トレースバックグラフの3つの幾何学的診断法を用いて検討した。
複数のモデルファミリやスケールにまたがって、この制御されたSPSプロキシは、しばしば標準的な評価の下で隠された永続的安全でない振る舞いを誘導できることを示す。
本研究は,SPSを将来の基盤モデルに対する実用的かつ未熟な脅威とみなす。
本稿では,潜在モデル動作を体系的に解析するための新しい幾何学的診断レンズを提案する。
関連論文リスト
- CSC: Turning the Adversary's Poison against Itself [23.878184947897765]
中毒ベースのバックドア攻撃は、ディープニューラルネットワークに重大な脅威をもたらす。
本稿では,モデルトレーニング中のバックドア攻撃ダイナミクスの包括的解析を行う。
新規な防毒対策としてクラスター分離封止法(CSC)を提案する。
論文 参考訳(メタデータ) (2026-04-23T08:30:53Z) - Delayed Backdoor Attacks: Exploring the Temporal Dimension as a New Attack Surface in Pre-Trained Models [42.9538411462588]
textittextbfDelayed Backdoor Attacks (DBA)を導入した。
我々は、UnderlineDecay(DND)に基づくUnderlineDelayed Backdoor Attacksと呼ばれる概念実証プロトタイプを実装した。
DNDには、しきい値に達するまでアクティベーションを延期する、軽量でステートフルなロジックモジュールが組み込まれている。
論文 参考訳(メタデータ) (2026-03-12T13:57:11Z) - Detecting Stealthy Data Poisoning Attacks in AI Code Generators [1.1371178703578924]
本研究は,ステルスシー脅威モデルに基づく既存の中毒検出手法の有効性に関する系統的研究である。
我々は,3つのDLモデル (CodeBERT, CodeT5+, AST-T5) に対して標的毒処理を行い, スペクトルシグネチャ解析, アクティベーションクラスタリング, 静的解析を防御として評価した。
以上の結果から,全ての手法が無作為性中毒の検出に苦慮し,表現に基づくアプローチでは有毒なサンプルの分離が困難であり,静的解析では偽陽性と偽陰性がみられた。
論文 参考訳(メタデータ) (2025-08-29T14:00:06Z) - BadHMP: Backdoor Attack against Human Motion Prediction [11.271295378687887]
我々は,人間の動作予測タスクを対象とする,新しいバックドアアタックであるBadHMPを提案する。
我々のアプローチは、局所的なバックドアトリガーを骨格の片足に埋め込むことで、有毒なトレーニングサンプルを生成することである。
将来の配列はグローバルに修正され、全ての関節が標的軌道に沿って移動する。
論文 参考訳(メタデータ) (2024-09-29T09:55:31Z) - FreqFed: A Frequency Analysis-Based Approach for Mitigating Poisoning
Attacks in Federated Learning [98.43475653490219]
フェデレート・ラーニング(Federated Learning, FL)は、毒素による攻撃を受けやすい。
FreqFedは、モデルの更新を周波数領域に変換する新しいアグリゲーションメカニズムである。
FreqFedは, 凝集モデルの有用性に悪影響を及ぼすことなく, 毒性攻撃を効果的に軽減できることを実証した。
論文 参考訳(メタデータ) (2023-12-07T16:56:24Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Learning and Certification under Instance-targeted Poisoning [49.55596073963654]
インスタンスターゲット中毒攻撃におけるPAC学習性と認証について検討する。
敵の予算がサンプルの複雑さに比例してスケールすると、PACの学習性と認定が達成可能であることを示す。
実データセット上でのK近傍, ロジスティック回帰, 多層パーセプトロン, 畳み込みニューラルネットワークの堅牢性を実証的に検討する。
論文 参考訳(メタデータ) (2021-05-18T17:48:15Z) - How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。
本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。
我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文 参考訳(メタデータ) (2020-12-02T15:30:21Z) - Weight Poisoning Attacks on Pre-trained Models [103.19413805873585]
本研究は, バックドアを微調整した後に, バックドアを露出する脆弱性を伴って, 事前訓練した重量を注入した場合に, 重量中毒を発生させることが可能であることを示す。
感情分類,毒性検出,スパム検出に関する実験により,この攻撃は広く適用可能であり,深刻な脅威となることが示された。
論文 参考訳(メタデータ) (2020-04-14T16:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。