論文の概要: Nob-MIAs: Non-biased Membership Inference Attacks Assessment on Large Language Models with Ex-Post Dataset Construction
- arxiv url: http://arxiv.org/abs/2408.05968v2
- Date: Thu, 26 Sep 2024 11:38:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-09-28 01:51:03.092142
- Title: Nob-MIAs: Non-biased Membership Inference Attacks Assessment on Large Language Models with Ex-Post Dataset Construction
- Title(参考訳): Nob-MIAs: ポストデータセット構築を伴う大規模言語モデルにおける非バイアスなメンバーシップ推論攻撃の評価
- Authors: Cédric Eichler, Nathan Champeil, Nicolas Anciaux, Alexandra Bensamoun, Heber Hwang Arcolezi, José Maria De Fuentes,
- Abstract要約: メンバーシップ推論攻撃 (MIA) は、特定の文書が与えられたLarge Language Models (LLM) プリトレーニングで使用されたかどうかを検出することを目的としている。
本稿では,LLMにおけるMIAの評価について述べる。
我々は、より公平なMIA評価のために、非バイアス'と非分類'のデータセットを作成するアルゴリズムを提案し、検証する。
- 参考スコア(独自算出の注目度): 37.69303106863453
- License:
- Abstract: The rise of Large Language Models (LLMs) has triggered legal and ethical concerns, especially regarding the unauthorized use of copyrighted materials in their training datasets. This has led to lawsuits against tech companies accused of using protected content without permission. Membership Inference Attacks (MIAs) aim to detect whether specific documents were used in a given LLM pretraining, but their effectiveness is undermined by biases such as time-shifts and n-gram overlaps. This paper addresses the evaluation of MIAs on LLMs with partially inferable training sets, under the ex-post hypothesis, which acknowledges inherent distributional biases between members and non-members datasets. We propose and validate algorithms to create ``non-biased'' and ``non-classifiable'' datasets for fairer MIA assessment. Experiments using the Gutenberg dataset on OpenLamma and Pythia show that neutralizing known biases alone is insufficient. Our methods produce non-biased ex-post datasets with AUC-ROC scores comparable to those previously obtained on genuinely random datasets, validating our approach. Globally, MIAs yield results close to random, with only one being effective on both random and our datasets, but its performance decreases when bias is removed.
- Abstract(参考訳): LLM(Large Language Models)の台頭は、特にトレーニングデータセットにおける著作権物質の使用に関する法的および倫理的な懸念を引き起こしている。
これは、保護されたコンテンツを無許可で使用したとして訴えられたテック企業に対する訴訟につながった。
メンバーシップ推論攻撃(MIA)は、特定の文書が所定のLLM事前訓練で使用されたかどうかを検出することを目的としているが、その効果は、時間シフトやn-gramオーバーラップのようなバイアスによって損なわれる。
本稿では,メンバーと非メンバーのデータセットに固有の分布バイアスが認められるポスト仮説の下で,LLM上のMIAを部分的に推論可能なトレーニングセットで評価する。
我々は、より公平なMIA評価のための「非バイアス」と「非分類」データセットを作成するアルゴリズムを提案し、検証する。
OpenLammaとPythiaのGutenbergデータセットを用いた実験では、既知のバイアスのみを中和することは不十分であることが示されている。
提案手法は,AUC-ROCスコアを用いた非バイアス付きポストデータセットを生成する。
グローバルに見ると、MIAの収率はランダムに近いが、1つだけがランダムとデータセットの両方で有効であるが、バイアスを取り除くとその性能は低下する。
関連論文リスト
- Inherent Challenges of Post-Hoc Membership Inference for Large Language Models [17.993892458845124]
大規模言語モデル(LLM)は、しばしば大量の未公開データに基づいて訓練され、ポストホックなメンバーシップ推論攻撃(MIA)の開発を動機付けている。
我々は、収集されたメンバーと非メンバーのデータセット間の潜在的分布シフトによるポストホックMIA評価における固有の課題を同定する。
本稿では,ポストホックデータ収集における回帰不連続性設計(RDD)アプローチを提案する。
論文 参考訳(メタデータ) (2024-06-25T23:12:07Z) - AIM: Attributing, Interpreting, Mitigating Data Unfairness [40.351282126410545]
既存の公正機械学習(FairML)の研究は、モデル予測における差別バイアスの軽減に重点を置いている。
トレーニングデータからバイアスや偏見を反映したサンプルの発見という,新たな研究課題について検討する。
サンプルバイアスの測定と対策のための実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-13T05:21:10Z) - LLM Dataset Inference: Did you train on my dataset? [42.97830562143777]
本研究では,大規模言語モデルの学習に使用されるデータセットを正確に識別する新しいデータセット推論手法を提案する。
提案手法は, 統計的に有意なp値0.1を持つパイルの異なる部分集合の列車と試験セットを, 偽陽性を伴わずに識別する。
論文 参考訳(メタデータ) (2024-06-10T16:34:43Z) - Do Membership Inference Attacks Work on Large Language Models? [145.90022632726883]
メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングデータのメンバーであるかどうかを予測しようとする。
我々は、Pileで訓練された言語モデルに対して、MIAの大規模評価を行い、そのパラメータは160Mから12Bまでである。
様々な LLM サイズや領域にまたがるほとんどの設定において,MIA はランダムな推測よりもほとんど優れていないことがわかった。
論文 参考訳(メタデータ) (2024-02-12T17:52:05Z) - Practical Membership Inference Attacks against Fine-tuned Large Language Models via Self-prompt Calibration [32.15773300068426]
メンバーシップ推論攻撃(MIA)は、対象のデータレコードがモデルトレーニングに使用されたかどうかを推測することを目的としている。
自己校正確率変動(SPV-MIA)に基づくメンバーシップ推論攻撃を提案する。
具体的には、LLMの記憶はトレーニングプロセス中に必然的に必要であり、オーバーフィッティング前に発生するので、より信頼性の高いメンバーシップ信号を導入する。
論文 参考訳(メタデータ) (2023-11-10T13:55:05Z) - Assessing Privacy Risks in Language Models: A Case Study on
Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。
テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。
我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文 参考訳(メタデータ) (2023-10-20T05:44:39Z) - Adaptive Negative Evidential Deep Learning for Open-set Semi-supervised Learning [69.81438976273866]
オープンセット半教師付き学習(Open-set SSL)は、ラベル付きデータ(inliers)で観測されない新しいカテゴリ(outliers)を含むラベル付きデータとテストデータを含む、より実践的なシナリオである。
本研究では,様々な不確かさを定量化するための外乱検出器として顕在的深層学習(EDL)を導入し,自己学習と推論のための異なる不確実性指標を設計する。
Inlierとoutlierの両方を含むラベルなしデータセットに適合するように、新しい適応的負の最適化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-21T09:07:15Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。