論文の概要: SLIM: Stealthy Low-Coverage Black-Box Watermarking via Latent-Space Confusion Zones
- arxiv url: http://arxiv.org/abs/2601.03242v1
- Date: Tue, 06 Jan 2026 18:37:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:13.061623
- Title: SLIM: Stealthy Low-Coverage Black-Box Watermarking via Latent-Space Confusion Zones
- Title(参考訳): SLIM:潜時空間拡散帯を経由したステルス低公害ブラックボックス透かし
- Authors: Hengyu Wu, Yang Cao,
- Abstract要約: トレーニングデータは、LLM(Large Language Model)開発において、重要かつしばしばプロプライエタリな資産である。
我々は,厳格なブラックボックスアクセス下でユーザごとのデータ証明を可能にするフレームワークSLIMを紹介する。
- 参考スコア(独自算出の注目度): 5.795582095405318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training data is a critical and often proprietary asset in Large Language Model (LLM) development, motivating the use of data watermarking to embed model-transferable signals for usage verification. We identify low coverage as a vital yet largely overlooked requirement for practicality, as individual data owners typically contribute only a minute fraction of massive training corpora. Prior methods fail to maintain stealthiness, verification feasibility, or robustness when only one or a few sequences can be modified. To address these limitations, we introduce SLIM, a framework enabling per-user data provenance verification under strict black-box access. SLIM leverages intrinsic LLM properties to induce a Latent-Space Confusion Zone by training the model to map semantically similar prefixes to divergent continuations. This manifests as localized generation instability, which can be reliably detected via hypothesis testing. Experiments demonstrate that SLIM achieves ultra-low coverage capability, strong black-box verification performance, and great scalability while preserving both stealthiness and model utility, offering a robust solution for protecting training data in modern LLM pipelines.
- Abstract(参考訳): トレーニングデータは、Large Language Model(LLM)開発において重要で、しばしばプロプライエタリな資産であり、データ透かしを使用してモデル変換可能な信号を組み込んで使用検証する動機となっている。
個々のデータ所有者は、通常、大規模なトレーニングコーパスの数分に過ぎません。
以前の手法では、1つまたは数個のシーケンスだけを修正できる場合、ステルス性、検証可能性、堅牢性を維持することができない。
これらの制限に対処するために,厳格なブラックボックスアクセス下でユーザ毎のデータプロファイランス検証を可能にするフレームワークSLIMを導入する。
SLIMは固有のLLM特性を活用して、意味論的に類似した接頭辞を分岐連続にマッピングするようにモデルを訓練することで、潜在空間融合ゾーンを誘導する。
これは局所的な生成不安定性として現れ、仮説テストによって確実に検出できる。
実験により、SLIMは超低カバレッジ能力、強力なブラックボックス検証性能、優れたスケーラビリティを実現し、ステルスネスとモデルユーティリティの両方を保ち、現代のLLMパイプラインにおけるトレーニングデータを保護する堅牢なソリューションを提供する。
関連論文リスト
- Privacy-Preserving Prompt Injection Detection for LLMs Using Federated Learning and Embedding-Based NLP Classification [0.0]
本稿では,フェデレート学習と埋め込みに基づく分類に基づくプライバシー保護型インジェクション検出フレームワークを提案する。
その結果, 生データを露出することなく効果的なインジェクション検出が可能であることが示唆された。
論文 参考訳(メタデータ) (2025-11-15T17:11:14Z) - DSSmoothing: Toward Certified Dataset Ownership Verification for Pre-trained Language Models via Dual-Space Smoothing [36.37263264594975]
既存のデータセットのオーナシップ検証手法は、推論中に透かしが安定していると仮定する。
2次元空間の平滑化に基づく PLM のための最初の認証済みデータセットのオーナシップ検証手法を提案する。
DSSmoothingは安定かつ信頼性の高い検証性能を実現し、潜在的適応攻撃に対する堅牢性を示す。
論文 参考訳(メタデータ) (2025-10-17T04:25:32Z) - Leave No TRACE: Black-box Detection of Copyrighted Dataset Usage in Large Language Models via Watermarking [51.74368870268278]
我々は,大規模な言語モデルにおける著作権付きデータセット使用量を完全にブラックボックスで検出するフレームワークであるTRACEを提案する。
textttTRACEは、プライベートキーでガイドされた歪みのない透かしでデータセットを書き換える。
さまざまなデータセットとモデルファミリにわたって、TRACEは一貫して重要な検出を実現している。
論文 参考訳(メタデータ) (2025-10-03T12:53:02Z) - Seek in the Dark: Reasoning via Test-Time Instance-Level Policy Gradient in Latent Space [92.6187727249868]
テスト時間インスタンスレベルの適応(TTIA)を通じて推論を強化するフレームワークであるLatentSeekを紹介した。
LatentSeekは、GSM8K、MATH-500、AIME2024など、さまざまな推論ベンチマークで評価されている。
結果は、LatentSeekが一貫して強力なベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-05-19T16:26:02Z) - Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。
そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:03:51Z) - Beyond Next Token Probabilities: Learnable, Fast Detection of Hallucinations and Data Contamination on LLM Output Distributions [60.43398881149664]
LLM出力シグナチャの効率的な符号化を訓練した軽量アテンションベースアーキテクチャであるLOS-Netを紹介する。
非常に低い検出レイテンシを維持しながら、さまざまなベンチマークやLLMで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-18T09:04:37Z) - Generative Edge Detection with Stable Diffusion [52.870631376660924]
エッジ検出は一般的に、主に識別法によって対処されるピクセルレベルの分類問題と見なされる。
本稿では、事前学習した安定拡散モデルのポテンシャルを十分に活用して、GED(Generative Edge Detector)という新しい手法を提案する。
複数のデータセットに対して広範な実験を行い、競争性能を達成する。
論文 参考訳(メタデータ) (2024-10-04T01:52:23Z) - Progressive Feature Adjustment for Semi-supervised Learning from
Pretrained Models [39.42802115580677]
半教師付き学習(SSL)はラベル付きデータとラベルなしデータの両方を利用して予測モデルを構築することができる。
近年の文献では、事前訓練されたモデルで最先端のSSLを適用しても、トレーニングデータの潜在能力を最大限に発揮できないことが示唆されている。
本稿では,ラベルの誤りに敏感でない特徴抽出器を更新するために,非ラベルデータから擬似ラベルを使用することを提案する。
論文 参考訳(メタデータ) (2023-09-09T01:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。