論文の概要: Blackbox Dataset Inference for LLM
- arxiv url: http://arxiv.org/abs/2507.03619v1
- Date: Fri, 04 Jul 2025 14:45:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.804586
- Title: Blackbox Dataset Inference for LLM
- Title(参考訳): LLMのためのブラックボックスデータセット推論
- Authors: Ruikai Zhou, Kang Yang, Xun Chen, Wendy Hui Wang, Guanhong Tao, Jun Xu,
- Abstract要約: 大規模言語モデルのトレーニングには、個人識別可能な情報と著作権のある資料が含まれる。
本稿では、被疑者モデルがトレーニングに$mathcalD$という犠牲データセットを使用したかどうかを検知することを目的としたテキストデータセット推論について検討する。
- 参考スコア(独自算出の注目度): 27.02176845242058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Today, the training of large language models (LLMs) can involve personally identifiable information and copyrighted material, incurring dataset misuse. To mitigate the problem of dataset misuse, this paper explores \textit{dataset inference}, which aims to detect if a suspect model $\mathcal{M}$ used a victim dataset $\mathcal{D}$ in training. Previous research tackles dataset inference by aggregating results of membership inference attacks (MIAs) -- methods to determine whether individual samples are a part of the training dataset. However, restricted by the low accuracy of MIAs, previous research mandates grey-box access to $\mathcal{M}$ to get intermediate outputs (probabilities, loss, perplexity, etc.) for obtaining satisfactory results. This leads to reduced practicality, as LLMs, especially those deployed for profits, have limited incentives to return the intermediate outputs. In this paper, we propose a new method of dataset inference with only black-box access to the target model (i.e., assuming only the text-based responses of the target model are available). Our method is enabled by two sets of locally built reference models, one set involving $\mathcal{D}$ in training and the other not. By measuring which set of reference model $\mathcal{M}$ is closer to, we determine if $\mathcal{M}$ used $\mathcal{D}$ for training. Evaluations of real-world LLMs in the wild show that our method offers high accuracy in all settings and presents robustness against bypassing attempts.
- Abstract(参考訳): 現在、大きな言語モデル(LLM)のトレーニングには、個人識別可能な情報と著作権のある資料が含まれており、データセットの誤用が発生する。
データセット誤用の問題を緩和するため,本研究では,被疑者モデル $\mathcal{M}$ がトレーニングで被害者データセット $\mathcal{D}$ を使用するかどうかを検出することを目的とした \textit{dataset inference} について検討する。
以前の調査では、トレーニングデータセットの一部であるかどうかを判断するために、メンバシップ推論アタック(MIA)の結果を集約することで、データセットの推論に取り組む。
しかし、MIAの低い精度で制限された以前の研究は、満足な結果を得るために中間出力(確率、損失、複雑度など)を得るために$\mathcal{M}$へのグレーボックスアクセスを義務付けていた。
LLM(特に利益のために配備されたもの)は中間出力を返すインセンティブが限られているため、これは実用性を低下させる。
本稿では,ターゲットモデルへのブラックボックスアクセスのみを前提としたデータセット推論手法を提案する。
提案手法は局所的に構築された参照モデルの2つのセットで有効であり,1つはトレーニングにおいて$\mathcal{D}$を含む集合であり,もう1つはそうではない。
どの参照モデルの $\mathcal{M}$ が近いかを測定することで、トレーニングに $\mathcal{M}$ が $\mathcal{D}$ であるかどうかを判断する。
実環境におけるLLMの評価は,本手法がすべての設定において高い精度を提供し,バイパスの試みに対して堅牢性を示すことを示している。
関連論文リスト
- Zero-Shot Attribution for Large Language Models: A Distribution Testing Approach [19.455425068600665]
仮説テストを用いて言語モデルが生成したコードを帰属させ、確立した手法と保証を活用するという課題について検討する。
分散テスト問題として属性をフレーム化するゼロショット属性ツールである$mathsfAnubis$を紹介した。
論文 参考訳(メタデータ) (2025-06-25T07:37:16Z) - Inverse Entropic Optimal Transport Solves Semi-supervised Learning via Data Likelihood Maximization [65.8915778873691]
条件分布は機械学習の中心的な問題です
ペアデータとペアデータの両方を統合する新しいパラダイムを提案する。
提案手法は任意の誤差で理論上真の条件分布を復元可能であることを示す。
論文 参考訳(メタデータ) (2024-10-03T16:12:59Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,グレーボックス条件下で動作可能である。
4つのベンチマークデータセットから35個の主要なオープンソースLCMのデータ漏洩度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - LLM Dataset Inference: Did you train on my dataset? [42.97830562143777]
本研究では,大規模言語モデルの学習に使用されるデータセットを正確に識別する新しいデータセット推論手法を提案する。
提案手法は, 統計的に有意なp値0.1を持つパイルの異なる部分集合の列車と試験セットを, 偽陽性を伴わずに識別する。
論文 参考訳(メタデータ) (2024-06-10T16:34:43Z) - Detecting Pretraining Data from Large Language Models [90.12037980837738]
事前学習データ検出問題について検討する。
事前学習データを知ることなく、テキスト片とLCMへのブラックボックスアクセスを条件に、モデルが提供されたテキストでトレーニングされたかどうかを判断できますか?
簡単な仮説に基づく新しい検出手法Min-K% Probを提案する。
論文 参考訳(メタデータ) (2023-10-25T17:21:23Z) - Towards a methodology for addressing missingness in datasets, with an
application to demographic health datasets [0.0]
本稿では, 合成データセット生成, 欠落データ計算, 深層学習を組み合わせることで, 欠落データ問題に対処する手法を提案する。
以上の結果から, 合成データセットとインプットデータセットでトレーニングしたモデルでは, 精度が 83 %$と 80 %$ on $a) $ an unseen real dataset and $b)$ an unseen reserve synthetic test dataset と予測できることがわかった。
論文 参考訳(メタデータ) (2022-11-05T09:02:30Z) - Bias Mimicking: A Simple Sampling Approach for Bias Mitigation [57.17709477668213]
本稿では,新しいクラス条件サンプリング手法であるBias Mimickingを紹介する。
Bias Mimickingは、4つのベンチマークで3%の精度でサンプリングの精度を向上する。
論文 参考訳(メタデータ) (2022-09-30T17:33:00Z) - On the Generalization for Transfer Learning: An Information-Theoretic Analysis [8.102199960821165]
一般化誤差と転帰学習アルゴリズムの過大なリスクを情報理論で解析する。
我々の結果は、おそらく予想通り、Kulback-Leibler divergenceD(mu|mu')$がキャラクタリゼーションにおいて重要な役割を果たすことを示唆している。
次に、$phi$-divergence や Wasserstein 距離といった他の発散点と結びついた相互情報を一般化する。
論文 参考訳(メタデータ) (2022-07-12T08:20:41Z) - Learning to extrapolate using continued fractions: Predicting the
critical temperature of superconductor materials [5.905364646955811]
人工知能(AI)と機械学習(ML)の分野では、未知のターゲット関数 $y=f(mathbfx)$ の近似が共通の目的である。
トレーニングセットとして$S$を参照し、新しいインスタンス$mathbfx$に対して、このターゲット関数を効果的に近似できる低複雑さの数学的モデルを特定することを目的としている。
論文 参考訳(メタデータ) (2020-11-27T04:57:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。