論文の概要: Detecting Data Contamination in Large Language Models
- arxiv url: http://arxiv.org/abs/2604.19561v1
- Date: Tue, 21 Apr 2026 15:13:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.838203
- Title: Detecting Data Contamination in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるデータ汚染の検出
- Authors: Juliusz Janicki, Savvas Chamezopoulos, Evangelos Kanoulas, Georgios Tsatsaronis,
- Abstract要約: 会員推論攻撃(MIA)は、文書の検出と、大規模言語モデル(LLM)の訓練コーパスに含まれるかどうかを目標とする。
我々は、ブラックボックスの仮定の下で、最先端(SOTA)MIAを研究し、統一されたデータセットを用いて、それらを互いに比較する。
ブラックボックスMIAへのアプローチを示すために、Familiarity Rankingと呼ばれる新しい手法が開発された。
- 参考スコア(独自算出の注目度): 14.276221325597477
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) utilize large amounts of data for their training, some of which may come from copyrighted sources. Membership Inference Attacks (MIA) aim to detect those documents and whether they have been included in the training corpora of the LLMs. The black-box MIAs require a significant amount of data manipulation; therefore, their comparison is often challenging. We study state-of-the-art (SOTA) MIAs under the black-box assumptions and compare them to each other using a unified set of datasets to determine if any of them can reliably detect membership under SOTA LLMs. In addition, a new method, called the Familiarity Ranking, was developed to showcase a possible approach to black-box MIAs, thereby giving LLMs more freedom in their expression to understand their reasoning better. The results indicate that none of the methods are capable of reliably detecting membership in LLMs, as shown by an AUC-ROC of approximately 0.5 for all methods across several LLMs. The higher TPR and FPR for more advanced LLMs indicate higher reasoning and generalizing capabilities, showcasing the difficulty of detecting membership in LLMs using black-box MIAs.
- Abstract(参考訳): LLM(Large Language Models)はそのトレーニングに大量のデータを使用し、その一部は著作権のあるソースから来ている。
会員推論攻撃(MIA)は、これらの文書を検知し、LLMの訓練コーパスに含まれるかどうかを目標とする。
ブラックボックスMIAは大量のデータ操作を必要とするため、それらの比較はしばしば困難である。
ブラックボックスの仮定の下でSOTA (State-of-the-art) MIAを研究し、それらを統一データセットを用いて比較し、SOTA LLMの会員シップを確実に検出できるかどうかを判定する。
さらに、ブラックボックスMIAへのアプローチを示すために、Familiarity Rankingと呼ばれる新しい手法が開発された。
以上の結果から, いずれの手法もLLMのメンバシップを確実に検出できないことが示唆された。
より高度なLCMに対する高いTPRとFPRは、より高い推論と一般化能力を示し、ブラックボックスMIAを用いてLCMのメンバシップを検出するのが困難であることを示している。
関連論文リスト
- Towards Robust Evaluation of Unlearning in LLMs via Data Transformations [17.927224387698903]
大きな言語モデル(LLM)は、通常のNLPベースのユースケースからAIエージェントまで、幅広いアプリケーションで大きな成功を収めている。
近年,マシン・アンラーニング(MUL)分野の研究が活発化している。
主な考え方は、LLMが通常のタスクのパフォーマンス損失に悩まされることなく、特定の情報(例えば、PII)を忘れること(未学習)を強制することである。
論文 参考訳(メタデータ) (2024-11-23T07:20:36Z) - Detecting Training Data of Large Language Models via Expectation Maximization [62.28028046993391]
本稿では,予測最大化アルゴリズムを用いて,メンバーシップスコアとプレフィックススコアを反復的に洗練する新しいメンバーシップ推論手法EM-MIAを紹介する。
EM-MIAはWikiMIAで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-10T03:31:16Z) - MIA-Tuner: Adapting Large Language Models as Pre-training Text Detector [32.15773300068426]
既存の手法では、様々な高度なMIAスコア関数を設計し、高い検出性能を実現している。
より正確な事前学習データ検出器としてLLM自体を指示する命令ベースのMIA手法であるMIA-Tunerを提案する。
既存の手法とMIA-Tunerによってもたらされるプライバシーリスクを軽減すべく、2つの命令ベースのセーフガードを設計する。
論文 参考訳(メタデータ) (2024-08-16T11:09:56Z) - SoK: Membership Inference Attacks on LLMs are Rushing Nowhere (and How to Fix It) [16.673210422615348]
LLMに対するメンバーシップ推論攻撃(MIA)を行うための10以上の新しい手法が提案されている。
固定だがランダム化されたレコードやモデルに依存する従来のMIAとは対照的に、これらの方法は主にトレーニングされ、ポストホックで収集されたデータセットでテストされる。
このランダム化の欠如は、メンバーと非メンバー間の分散シフトの懸念を引き起こす。
論文 参考訳(メタデータ) (2024-06-25T23:12:07Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - Do Membership Inference Attacks Work on Large Language Models? [141.2019867466968]
メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングデータのメンバーであるかどうかを予測しようとする。
我々は、Pileで訓練された言語モデルに対して、MIAの大規模評価を行い、そのパラメータは160Mから12Bまでである。
様々な LLM サイズや領域にまたがるほとんどの設定において,MIA はランダムな推測よりもほとんど優れていないことがわかった。
論文 参考訳(メタデータ) (2024-02-12T17:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。