論文の概要: Membership Inference Attacks on Tokenizers of Large Language Models
- arxiv url: http://arxiv.org/abs/2510.05699v1
- Date: Tue, 07 Oct 2025 09:05:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.17249
- Title: Membership Inference Attacks on Tokenizers of Large Language Models
- Title(参考訳): 大規模言語モデルのトケナイザに対する会員推測攻撃
- Authors: Meng Tong, Yuntao Du, Kejiang Chen, Weiming Zhang, Ninghui Li,
- Abstract要約: 本稿では,トークン化剤によるメンバシップリークに関する最初の研究について述べる。
データセットのメンバシップを推測する5つのアタック手法について検討する。
われわれの発見は、トークン化業者を、見過ごされているが重要なプライバシーの脅威として強調している。
- 参考スコア(独自算出の注目度): 40.2492347972186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Membership inference attacks (MIAs) are widely used to assess the privacy risks associated with machine learning models. However, when these attacks are applied to pre-trained large language models (LLMs), they encounter significant challenges, including mislabeled samples, distribution shifts, and discrepancies in model size between experimental and real-world settings. To address these limitations, we introduce tokenizers as a new attack vector for membership inference. Specifically, a tokenizer converts raw text into tokens for LLMs. Unlike full models, tokenizers can be efficiently trained from scratch, thereby avoiding the aforementioned challenges. In addition, the tokenizer's training data is typically representative of the data used to pre-train LLMs. Despite these advantages, the potential of tokenizers as an attack vector remains unexplored. To this end, we present the first study on membership leakage through tokenizers and explore five attack methods to infer dataset membership. Extensive experiments on millions of Internet samples reveal the vulnerabilities in the tokenizers of state-of-the-art LLMs. To mitigate this emerging risk, we further propose an adaptive defense. Our findings highlight tokenizers as an overlooked yet critical privacy threat, underscoring the urgent need for privacy-preserving mechanisms specifically designed for them.
- Abstract(参考訳): メンバーシップ推論攻撃(MIA)は機械学習モデルに関連するプライバシーリスクを評価するために広く利用されている。
しかしながら、これらの攻撃が事前訓練された大規模言語モデル(LLM)に適用された場合、実験と実世界の設定間のモデルサイズの違いなど、誤ったラベル付きサンプル、分散シフト、といった重大な課題に直面する。
これらの制限に対処するため、トークン化器を新しい攻撃ベクトルとして導入する。
具体的には、トークン化器は、原文をLSM用のトークンに変換する。
フルモデルとは異なり、トークンライザはスクラッチから効率的にトレーニングできるため、上記の課題は回避できる。
加えて、トークンライザのトレーニングデータは、通常、LLMの事前トレーニングに使われるデータを表す。
これらの利点にもかかわらず、攻撃ベクトルとしてのトークン化剤の可能性は未解明のままである。
この目的のために,トークン化器によるメンバシップリークに関する最初の研究と,データセットのメンバシップを推定するための5つの攻撃方法について検討する。
数百万のインターネットサンプルに対する大規模な実験は、最先端のLCMのトークン化装置の脆弱性を明らかにしている。
この新興リスクを軽減するために、我々はさらに適応的な防御を提案する。
当社の調査結果は、トークン化業者が過度に見落とされながらも重要なプライバシーの脅威であることを強調し、特にプライバシー保護メカニズムの必要性を強調した。
関連論文リスト
- No Query, No Access [50.18709429731724]
被害者のテキストのみを使用して動作する textbfVictim Data-based Adrial Attack (VDBA) を導入する。
被害者モデルへのアクセスを防止するため、公開されている事前トレーニングモデルとクラスタリングメソッドを備えたシャドウデータセットを作成します。
EmotionとSST5データセットの実験によると、VDBAは最先端の手法より優れており、ASRの改善は52.08%である。
論文 参考訳(メタデータ) (2025-05-12T06:19:59Z) - Tokens for Learning, Tokens for Unlearning: Mitigating Membership Inference Attacks in Large Language Models via Dual-Purpose Training [13.680205342714412]
大規模言語モデル(LLM)は、現代の自然言語処理のバックボーンとなっているが、センシティブなトレーニングデータの漏洩に関するプライバシー上の懸念を生じさせている。
本稿では,トークン固有の特徴を活用して,言語モデルのトレーニングデータを保護するための,軽量かつ効果的な経験的プライバシ保護手法である methodname を提案する。
論文 参考訳(メタデータ) (2025-02-27T03:37:45Z) - Towards Label-Only Membership Inference Attack against Pre-trained Large Language Models [34.39913818362284]
メンバーシップ推論攻撃(MIA)は、データサンプルがモデルのトレーニングセットに属しているかどうかを予測することを目的としている。
textbfPETAL: textbfPEr-textbfToken semtextbfAntic simitextbfLLに基づくラベルのみのメンバシップ推論攻撃を提案する。
論文 参考訳(メタデータ) (2025-02-26T08:47:19Z) - A Method to Facilitate Membership Inference Attacks in Deep Learning Models [5.724311218570013]
我々は,従来の技術よりも厳格に強力な新たな会員推論攻撃を実演する。
私たちの攻撃は、敵がすべてのトレーニングサンプルを確実に識別する権限を与えます。
これらのモデルは、共通の会員プライバシー監査の下で、増幅された会員リークを効果的に偽装できることを示す。
論文 参考訳(メタデータ) (2024-07-02T03:33:42Z) - Chameleon: Increasing Label-Only Membership Leakage with Adaptive
Poisoning [8.084254242380057]
メンバーシップ推論(MI)攻撃は、特定のデータサンプルがモデルのトレーニングデータセットに含まれているかどうかを判断する。
既存のラベルのみのMI攻撃は、偽陽性率の低い体制での加入を推測するには効果がないことを示す。
本稿では,新たなアダプティブなデータ中毒戦略と効率的なクエリ選択手法を活用する新たな攻撃型Chameleonを提案する。
論文 参考訳(メタデータ) (2023-10-05T18:46:27Z) - Defending Pre-trained Language Models as Few-shot Learners against
Backdoor Attacks [72.03945355787776]
軽快でプラガブルで効果的な PLM 防御である MDP を,少人数の学習者として提唱する。
我々は,MDPが攻撃の有効性と回避性の両方を選択できる興味深いジレンマを発生させることを解析的に示す。
論文 参考訳(メタデータ) (2023-09-23T04:41:55Z) - Unlearnable Clusters: Towards Label-agnostic Unlearnable Examples [128.25509832644025]
インターネット上の視覚的プライバシー漏洩に対して、未学習の例(UE)を開発することへの関心が高まっている。
UEは、目に見えないが学習不可能なノイズを付加したトレーニングサンプルであり、機械学習モデルの不正なトレーニングを防ぐことができる。
本稿では,無学習クラスタ (UC) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-12-31T04:26:25Z) - Sampling Attacks: Amplification of Membership Inference Attacks by
Repeated Queries [74.59376038272661]
本手法は,他の標準メンバーシップ相手と異なり,被害者モデルのスコアにアクセスできないような厳格な制限の下で動作可能な,新しいメンバーシップ推論手法であるサンプリングアタックを導入する。
ラベルのみを公開している被害者モデルでは,攻撃のサンプリングが引き続き可能であり,攻撃者はその性能の最大100%を回復できることを示す。
防衛においては,被害者モデルのトレーニング中の勾配摂動と予測時の出力摂動の形式で差分プライバシーを選択する。
論文 参考訳(メタデータ) (2020-09-01T12:54:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。