論文の概要: Combating Data Laundering in LLM Training
- arxiv url: http://arxiv.org/abs/2604.01904v1
- Date: Thu, 02 Apr 2026 11:19:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.701398
- Title: Combating Data Laundering in LLM Training
- Title(参考訳): LLMトレーニングにおけるデータ洗浄
- Authors: Muxing Li, Zesheng Ye, Sharon Li, Feng Liu,
- Abstract要約: データ権限所有者は、プロプライエタリなサンプルをクエリすることで、大規模言語モデル(LLM)トレーニングで使用される不正なデータを検出することができる。
この検出は、プロプライエタリなデータのスタイリスティックな形式を変えるプラクティスであるデータロンダリングの下で脆弱になる。
この抽象化をインスタンス化するデータ合成合成(SDR)を導入する。
- 参考スコア(独自算出の注目度): 12.725499429578711
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data rights owners can detect unauthorized data use in large language model (LLM) training by querying with proprietary samples. Often, superior performance (e.g., higher confidence or lower loss) on a sample relative to the untrained data implies it was part of the training corpus, as LLMs tend to perform better on data they have seen during training. However, this detection becomes fragile under data laundering, a practice of transforming the stylistic form of proprietary data, while preserving critical information to obfuscate data provenance. When an LLM is trained exclusively on such laundered variants, it no longer performs better on originals, erasing the signals that standard detections rely on. We counter this by inferring the unknown laundering transformation from black-box access to the target LLM and, via an auxiliary LLM, synthesizing queries that mimic the laundered data, even if rights owners have only the originals. As the search space of finding true laundering transformations is infinite, we abstract such a process into a high-level transformation goal (e.g., "lyrical rewriting") and concrete details (e.g., "with vivid imagery"), and introduce synthesis data reversion (SDR) that instantiates this abstraction. SDR first identifies the most probable goal for synthesis to narrow the search; it then iteratively refines details so that synthesized queries gradually elicit stronger detection signals from the target LLM. Evaluated on the MIMIR benchmark against diverse laundering practices and target LLM families (Pythia, Llama2, and Falcon), SDR consistently strengthens data misuse detection, providing a practical countermeasure to data laundering.
- Abstract(参考訳): データ権限所有者は、プロプライエタリなサンプルをクエリすることで、大規模言語モデル(LLM)トレーニングで使用される不正なデータを検出することができる。
多くの場合、未トレーニングデータに対するサンプルのパフォーマンス(例えば、高い信頼性や低い損失)は、トレーニング中に見たデータに対して、LCMがより良いパフォーマンスを示す傾向があるため、トレーニングコーパスの一部であったことを意味する。
しかし、この検出はプロプライエタリなデータのスタイリスティックな形式を変換する手法であるデータロンダリング(英語版)の下で脆弱になり、重要な情報を保存してデータの重複を解消する。
LLMがこのような洗浄された変種にのみ訓練される場合、標準検出が依存する信号を消去し、原本では性能が向上しない。
我々は、ブラックボックスアクセスからターゲットLLMへの未知のランダリング変換を推論し、補助的なLLMを通して、たとえ権利所有者がオリジナルしか持たないとしても、ランダリングされたデータを模倣するクエリを合成する。
真の洗浄変換を求める探索空間は無限であり、そのようなプロセスを高レベルな変換目標(例:「リライト」)と具体的詳細(例:「鮮明な画像」)に抽象化し、この抽象化をインスタンス化する合成データ変換(SDR)を導入する。
SDRはまず、探索を狭めるための最も可能性の高い目標を特定し、その後、詳細を反復的に洗練し、合成されたクエリがターゲットのLSMからより強力な検出信号を徐々に引き出すようにした。
MIMIRベンチマークにより、様々な洗浄作業やLLMファミリー(Pythia、Llama2、Falcon)に対して評価され、SDRはデータの誤用検出を一貫して強化し、データ洗浄に対する実用的な対策を提供する。
関連論文リスト
- Hey, That's My Data! Label-Only Dataset Inference in Large Language Models [63.35066172530291]
CatShiftはラベルのみのデータセット推論フレームワークである。
LLMは、新しいデータに晒されたとき、学習した知識を上書きする傾向にある。
論文 参考訳(メタデータ) (2025-06-06T13:02:59Z) - The Canary's Echo: Auditing Privacy Risks of LLM-Generated Synthetic Text [23.412546862849396]
我々は、敵がLarge Language Models(LLMs)によって生成された合成データにアクセス可能であると仮定する。
我々は、データ合成に使用されるLPMを微調整するために使用されるトレーニングデータをターゲットに、メンバーシップ推論攻撃(MIA)を設計する。
モデルに基づくMIAのために作られたカナリアは、合成データのみを公開する場合、プライバシー監査のサブ最適化であることがわかった。
論文 参考訳(メタデータ) (2025-02-19T15:30:30Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。