Fugu-MT 論文翻訳(概要): PermaFrost-Attack: Stealth Pretraining Seeding(SPS) for planting Logic Landmines During LLM Training

論文の概要: PermaFrost-Attack: Stealth Pretraining Seeding(SPS) for planting Logic Landmines During LLM Training

arxiv url: http://arxiv.org/abs/2604.22117v1
Date: Thu, 23 Apr 2026 23:32:36 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-27 15:36:26.289882
Title: PermaFrost-Attack: Stealth Pretraining Seeding(SPS) for planting Logic Landmines During LLM Training
Title（参考訳）: PermaFrost-Attack:SPS(Stalth Pretraining Seeding)を用いたLLM訓練時のロジック地雷植林
Authors: Harsh Kumar, Rahul Maity, Tanmay Joshi, Aman Chadha, Vinija Jain, Suranjana Trivedy, Amitava Das,
Abstract要約: 適応型大規模言語モデル(LLM)は、敵の操作に弱いままである。ステルス・プレトレーニング・シーディング (SPS) は、敵が少量の毒物を盗難ウェブサイトに配信する新たな攻撃ファミリーである。本研究は,SPSを将来の基盤モデルに対する実用的かつ未熟な脅威とみなす。
参考スコア（独自算出の注目度）: 19.666055750317266
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Aligned large language models(LLMs) remain vulnerable to adversarial manipulation, and their dependence on web-scale pretraining creates a subtle but serious attack surface. We study Stealth Pretraining Seeding (SPS), a new attack family in which adversaries distribute small amounts of poisoned content across stealth websites, expose them to web crawlers through robots.txt, and thereby increase the likelihood that such content is absorbed into future training corpora derived from sources such as Common Crawl. Because each individual payload is tiny, diffuse, and superficially benign, the attack is difficult to detect during dataset construction or filtering. The result is a latent form of poisoning: dormant logic landmines embedded during pretraining that remain largely invisible under standard evaluation, yet can later be activated by precise alphanumeric triggers such as <00TRIGGER00> to bypass safeguards. We call this attack PermaFrost, by analogy to Arctic permafrost: harmful material can remain frozen, buried, and unnoticed for long periods, only to resurface when conditions allow. We operationalize this threat through PermaFrost-Attack, a controlled framework for latent conceptual poisoning, together with a suite of geometric diagnostics: Thermodynamic Length, Spectral Curvature, and the Infection Traceback Graph. Across multiple model families and scales, we show that SPS is broadly effective, inducing persistent unsafe behavior while often evading alignment defenses. Our results identify SPS as a practical and underappreciated threat to future foundation models. This paper introduces a novel geometric diagnostic lens for systematically examining latent model behavior, providing a principled foundation for detecting, characterizing, and understanding vulnerabilities that may remain invisible to standard evaluation.
Abstract（参考訳）: 適応型大規模言語モデル(LLM)は、敵の操作に弱いままであり、Webスケールの事前学習への依存は微妙だが深刻な攻撃面を生み出す。ステルス・プレトレーニング・シーディング(SPS)は、敵が盗難ウェブサイトに少量の有毒コンテンツを配布し、ロボット.txtを介してウェブクローラーに公開し、コモン・クローリングなどの情報源から派生した将来の訓練コーパスに吸収される可能性を高める新たな攻撃ファミリーである。個々のペイロードは小さく、拡散し、表面的に良性であるため、データセットの構築やフィルタリングの間、攻撃を検出するのは難しい。その結果,<00TRIGGER00> などの精密なアルファ数値トリガーによって活性化され,安全ガードを回避できることがわかった。我々はこの攻撃をペルマフロスト(PermaFrost)と呼び、北極の永久凍土(Permafrost)を例に挙げている。この脅威はPermaFrost-Attack(潜伏概念中毒の制御フレームワーク)と、熱力学長、スペクトル曲率、感染トレーサバックグラフといった幾何的診断のスイートによって解決される。複数のモデルファミリやスケールにわたって、SPSは、アライメント防御を回避しつつ、永続的安全でない振る舞いを誘発し、広範囲に効果があることが示される。本研究は,SPSを将来の基盤モデルに対する実用的かつ未熟な脅威とみなす。本稿では,潜在モデル動作を体系的に解析するための新しい幾何学的診断レンズを提案する。

関連論文リスト

CSC: Turning the Adversary's Poison against Itself [23.878184947897765]
中毒ベースのバックドア攻撃は、ディープニューラルネットワークに重大な脅威をもたらす。本稿では,モデルトレーニング中のバックドア攻撃ダイナミクスの包括的解析を行う。新規な防毒対策としてクラスター分離封止法(CSC)を提案する。
論文参考訳（メタデータ） (2026-04-23T08:30:53Z)
Delayed Backdoor Attacks: Exploring the Temporal Dimension as a New Attack Surface in Pre-Trained Models [42.9538411462588]
textittextbfDelayed Backdoor Attacks (DBA)を導入した。我々は、UnderlineDecay(DND)に基づくUnderlineDelayed Backdoor Attacksと呼ばれる概念実証プロトタイプを実装した。 DNDには、しきい値に達するまでアクティベーションを延期する、軽量でステートフルなロジックモジュールが組み込まれている。
論文参考訳（メタデータ） (2026-03-12T13:57:11Z)
Detecting Stealthy Data Poisoning Attacks in AI Code Generators [1.1371178703578924]
本研究は,ステルスシー脅威モデルに基づく既存の中毒検出手法の有効性に関する系統的研究である。我々は,3つのDLモデル (CodeBERT, CodeT5+, AST-T5) に対して標的毒処理を行い, スペクトルシグネチャ解析, アクティベーションクラスタリング, 静的解析を防御として評価した。以上の結果から,全ての手法が無作為性中毒の検出に苦慮し,表現に基づくアプローチでは有毒なサンプルの分離が困難であり,静的解析では偽陽性と偽陰性がみられた。
論文参考訳（メタデータ） (2025-08-29T14:00:06Z)
BadHMP: Backdoor Attack against Human Motion Prediction [11.271295378687887]
我々は,人間の動作予測タスクを対象とする,新しいバックドアアタックであるBadHMPを提案する。我々のアプローチは、局所的なバックドアトリガーを骨格の片足に埋め込むことで、有毒なトレーニングサンプルを生成することである。将来の配列はグローバルに修正され、全ての関節が標的軌道に沿って移動する。
論文参考訳（メタデータ） (2024-09-29T09:55:31Z)
FreqFed: A Frequency Analysis-Based Approach for Mitigating Poisoning Attacks in Federated Learning [98.43475653490219]
フェデレート・ラーニング(Federated Learning, FL)は、毒素による攻撃を受けやすい。 FreqFedは、モデルの更新を周波数領域に変換する新しいアグリゲーションメカニズムである。 FreqFedは, 凝集モデルの有用性に悪影響を及ぼすことなく, 毒性攻撃を効果的に軽減できることを実証した。
論文参考訳（メタデータ） (2023-12-07T16:56:24Z)
Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文参考訳（メタデータ） (2023-06-06T14:45:24Z)
Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文参考訳（メタデータ） (2021-06-21T21:42:08Z)
Learning and Certification under Instance-targeted Poisoning [49.55596073963654]
インスタンスターゲット中毒攻撃におけるPAC学習性と認証について検討する。敵の予算がサンプルの複雑さに比例してスケールすると、PACの学習性と認定が達成可能であることを示す。実データセット上でのK近傍, ロジスティック回帰, 多層パーセプトロン, 畳み込みニューラルネットワークの堅牢性を実証的に検討する。
論文参考訳（メタデータ） (2021-05-18T17:48:15Z)
How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文参考訳（メタデータ） (2020-12-02T15:30:21Z)
Weight Poisoning Attacks on Pre-trained Models [103.19413805873585]
本研究は, バックドアを微調整した後に, バックドアを露出する脆弱性を伴って, 事前訓練した重量を注入した場合に, 重量中毒を発生させることが可能であることを示す。感情分類,毒性検出,スパム検出に関する実験により,この攻撃は広く適用可能であり,深刻な脅威となることが示された。
論文参考訳（メタデータ） (2020-04-14T16:51:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。