論文の概要: Winter Soldier: Backdooring Language Models at Pre-Training with Indirect Data Poisoning
- arxiv url: http://arxiv.org/abs/2506.14913v1
- Date: Tue, 17 Jun 2025 18:46:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.454782
- Title: Winter Soldier: Backdooring Language Models at Pre-Training with Indirect Data Poisoning
- Title(参考訳): ウィンターソルジャー:間接データ中毒による事前学習におけるバックドア言語モデル
- Authors: Wassim Bouaziz, Mathurin Videau, Nicolas Usunier, El-Mahdi El-Mhamdi,
- Abstract要約: 間接的なデータ中毒はデータセットを効果的に保護し、その使用を追跡できることを示す。
モデルに任意のシークレットシーケンスを学習させる: トレーニングコーパスにないシークレットプロンプトに対するシークレット応答。
我々は、スクラッチから事前訓練された言語モデルに対する我々のアプローチを検証するとともに、毒性トークンの0.005%未満は、LMに秘密を隠蔽するのに十分であることを示す。
- 参考スコア(独自算出の注目度): 11.722958734691021
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The pre-training of large language models (LLMs) relies on massive text datasets sourced from diverse and difficult-to-curate origins. Although membership inference attacks and hidden canaries have been explored to trace data usage, such methods rely on memorization of training data, which LM providers try to limit. In this work, we demonstrate that indirect data poisoning (where the targeted behavior is absent from training data) is not only feasible but also allow to effectively protect a dataset and trace its use. Using gradient-based optimization prompt-tuning, we make a model learn arbitrary secret sequences: secret responses to secret prompts that are absent from the training corpus. We validate our approach on language models pre-trained from scratch and show that less than 0.005% of poisoned tokens are sufficient to covertly make a LM learn a secret and detect it with extremely high confidence ($p < 10^{-55}$) with a theoretically certifiable scheme. Crucially, this occurs without performance degradation (on LM benchmarks) and despite secrets never appearing in the training set.
- Abstract(参考訳): 大規模言語モデル (LLM) の事前学習は、多様で難解な起源から得られた大量のテキストデータセットに依存している。
会員推測攻撃や隠れカナリアはデータ利用の追跡のために研究されているが、これらの手法は訓練データの記憶に依存しており、LMプロバイダはそれを制限しようとしている。
本研究では、間接的なデータ中毒(トレーニングデータから標的となる行動が欠如している)が実現可能であるだけでなく、データセットを効果的に保護し、その使用を追跡できることを実証する。
勾配に基づく最適化プロンプトチューニングを用いて、モデルに任意のシークレットシーケンス、すなわちトレーニングコーパスから欠落したシークレットプロンプトへのシークレット応答を学習させる。
我々は、スクラッチから事前訓練された言語モデルに対する我々のアプローチを検証するとともに、0.005%未満の有毒トークンが、LMに秘密を隠蔽し、極めて高い信頼性(p < 10^{-55}$)でそれを検出するのに十分であることを示す。
重要なことに、これは(LMベンチマークで)パフォーマンスの劣化なしに発生し、トレーニングセットには秘密が決して現れない。
関連論文リスト
- Hey, That's My Data! Label-Only Dataset Inference in Large Language Models [63.35066172530291]
CatShiftはラベルのみのデータセット推論フレームワークである。
LLMは、新しいデータに晒されたとき、学習した知識を上書きする傾向にある。
論文 参考訳(メタデータ) (2025-06-06T13:02:59Z) - Tokens for Learning, Tokens for Unlearning: Mitigating Membership Inference Attacks in Large Language Models via Dual-Purpose Training [13.680205342714412]
大規模言語モデル(LLM)は、現代の自然言語処理のバックボーンとなっているが、センシティブなトレーニングデータの漏洩に関するプライバシー上の懸念を生じさせている。
本稿では,トークン固有の特徴を活用して,言語モデルのトレーニングデータを保護するための,軽量かつ効果的な経験的プライバシ保護手法である methodname を提案する。
論文 参考訳(メタデータ) (2025-02-27T03:37:45Z) - Adaptive Pre-training Data Detection for Large Language Models via Surprising Tokens [1.2549198550400134]
大きな言語モデル(LLM)は広く使われているが、プライバシー、セキュリティ、著作権については不透明なトレーニングデータのために懸念されている。
この問題に対する現在の解決策は、メンバーシップ推論攻撃(MIA)のような機械学習プライバシで探索されたテクニックを活用する。
本稿では、この信頼性を軽減し、同定を効果的に増幅する適応型事前学習データ検出法を提案する。
論文 参考訳(メタデータ) (2024-07-30T23:43:59Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - Learning to Poison Large Language Models for Downstream Manipulation [12.521338629194503]
この研究は、教師付き微調整プロセスを利用するのに適した新しいデータ中毒攻撃を設計することで、LLM(Large Language Models)のさらなるセキュリティリスクを特定する。
本稿では,逆方向誘導学習(GBTL)アルゴリズムを提案する。
In-context Learning(ICL)とContinuous Learning(CL)の2つの防衛戦略を提案する。
論文 参考訳(メタデータ) (2024-02-21T01:30:03Z) - Scalable Extraction of Training Data from (Production) Language Models [93.7746567808049]
本稿では,学習データセットの事前知識を必要とせず,機械学習モデルに問い合わせることで,相手が効率的に抽出できる学習データについて検討する。
敵は、PythiaやGPT-Neoのようなオープンソースの言語モデル、LLaMAやFalconのようなセミオープンモデル、ChatGPTのようなクローズドモデルから、ギガバイトのトレーニングデータを抽出できることを示す。
論文 参考訳(メタデータ) (2023-11-28T18:47:03Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - Ethicist: Targeted Training Data Extraction Through Loss Smoothed Soft
Prompting and Calibrated Confidence Estimation [56.57532238195446]
本研究では,対象とするトレーニングデータ抽出のためのEthicistという手法を提案する。
メモリ化を誘発するため、モデルを固定しながらソフトなプロンプト埋め込みをチューニングする。
我々は,最近提案された公開ベンチマークにおいて,エティシストが抽出性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-07-10T08:03:41Z) - Tracing Knowledge in Language Models Back to the Training Data [39.02793789536856]
言語モデルのアサーションをトレーニング例に遡り、これらの予測の証拠を提供する。
我々は、よく理解された情報検索指標を用いて、事実追跡に影響を及ぼす方法を評価する。
論文 参考訳(メタデータ) (2022-05-23T17:34:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。