論文の概要: Self-Comparison for Dataset-Level Membership Inference in Large (Vision-)Language Models
- arxiv url: http://arxiv.org/abs/2410.13088v1
- Date: Wed, 16 Oct 2024 23:05:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:20:45.046719
- Title: Self-Comparison for Dataset-Level Membership Inference in Large (Vision-)Language Models
- Title(参考訳): 大規模(視覚)言語モデルにおけるデータセットレベルメンバーシップ推論の自己比較
- Authors: Jie Ren, Kangrui Chen, Chen Chen, Vikash Sehwag, Yue Xing, Jiliang Tang, Lingjuan Lyu,
- Abstract要約: 本稿では,自己比較に基づくデータセットレベルのメンバシップ推定手法を提案する。
本手法では, 同一分布における地中構造データや非構造データへのアクセスは不要である。
- 参考スコア(独自算出の注目度): 73.94175015918059
- License:
- Abstract: Large Language Models (LLMs) and Vision-Language Models (VLMs) have made significant advancements in a wide range of natural language processing and vision-language tasks. Access to large web-scale datasets has been a key factor in their success. However, concerns have been raised about the unauthorized use of copyrighted materials and potential copyright infringement. Existing methods, such as sample-level Membership Inference Attacks (MIA) and distribution-based dataset inference, distinguish member data (data used for training) and non-member data by leveraging the common observation that models tend to memorize and show greater confidence in member data. Nevertheless, these methods face challenges when applied to LLMs and VLMs, such as the requirement for ground-truth member data or non-member data that shares the same distribution as the test data. In this paper, we propose a novel dataset-level membership inference method based on Self-Comparison. We find that a member prefix followed by a non-member suffix (paraphrased from a member suffix) can further trigger the model's memorization on training data. Instead of directly comparing member and non-member data, we introduce paraphrasing to the second half of the sequence and evaluate how the likelihood changes before and after paraphrasing. Unlike prior approaches, our method does not require access to ground-truth member data or non-member data in identical distribution, making it more practical. Extensive experiments demonstrate that our proposed method outperforms traditional MIA and dataset inference techniques across various datasets and models, including including public models, fine-tuned models, and API-based commercial models.
- Abstract(参考訳): 大規模言語モデル(LLM)と視覚言語モデル(VLM)は、幅広い自然言語処理や視覚言語タスクにおいて大きな進歩を遂げている。
大規模なWebスケールデータセットへのアクセスは、彼らの成功の重要な要因である。
しかし、著作権物質の不正使用や著作権侵害の可能性への懸念が高まっている。
サンプルレベルのメンバーシップ推論攻撃(MIA)や分布ベースのデータセット推論のような既存の手法では、モデルを記憶し、メンバーデータの信頼性を高める傾向にあるという共通の観察を活用することで、メンバーデータ(トレーニングに使用されるデータ)と非メンバーデータを区別する。
しかしながら、これらの手法は、LLMやVLMに適用する場合、例えば、基幹メンバーデータや、テストデータと同じ分布を共有する非メンバーデータなどの課題に直面している。
本稿では,自己比較に基づく新しいデータセットレベルのメンバシップ推定手法を提案する。
メンバープレフィックスに非メンバー接尾辞(メンバー接尾辞から派生した)が続くと、トレーニングデータに対するモデルの暗記がさらに引き起こされる。
メンバーデータと非メンバーデータを直接比較する代わりに、シーケンスの後半にパラフレージングを導入し、パラフレージング前後の確率がどのように変化するかを評価する。
従来の手法とは異なり,本手法では,同一分布の地中構造データや非構成データへのアクセスを必要としないため,より実用的な方法である。
大規模な実験により,提案手法は,公開モデルや微調整モデル,APIベースの商用モデルなど,さまざまなデータセットやモデルにまたがる従来のMIAおよびデータセット推論技術より優れていることが示された。
関連論文リスト
- ReCaLL: Membership Inference via Relative Conditional Log-Likelihoods [56.073335779595475]
ReCaLL (Relative Conditional Log-Likelihood) という新しいメンバーシップ推論攻撃(MIA)を提案する。
ReCaLLは、ターゲットデータポイントを非メンバーコンテキストでプレフィックスする場合、条件付きログライクな状態の相対的変化を調べる。
我々は総合的な実験を行い、ReCaLLがWikiMIAデータセット上で最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-06-23T00:23:13Z) - LLM Dataset Inference: Did you train on my dataset? [42.97830562143777]
本研究では,大規模言語モデルの学習に使用されるデータセットを正確に識別する新しいデータセット推論手法を提案する。
提案手法は, 統計的に有意なp値0.1を持つパイルの異なる部分集合の列車と試験セットを, 偽陽性を伴わずに識別する。
論文 参考訳(メタデータ) (2024-06-10T16:34:43Z) - Do Membership Inference Attacks Work on Large Language Models? [141.2019867466968]
メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングデータのメンバーであるかどうかを予測しようとする。
我々は、Pileで訓練された言語モデルに対して、MIAの大規模評価を行い、そのパラメータは160Mから12Bまでである。
様々な LLM サイズや領域にまたがるほとんどの設定において,MIA はランダムな推測よりもほとんど優れていないことがわかった。
論文 参考訳(メタデータ) (2024-02-12T17:52:05Z) - Assessing Privacy Risks in Language Models: A Case Study on
Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。
テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。
我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文 参考訳(メタデータ) (2023-10-20T05:44:39Z) - Recovering from Privacy-Preserving Masking with Large Language Models [14.828717714653779]
マスク付きトークンの代わりに大きな言語モデル(LLM)を提案する。
難読化コーパスでトレーニングしたモデルが,元のデータでトレーニングしたモデルと同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-09-12T16:39:41Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Self-augmented Data Selection for Few-shot Dialogue Generation [18.794770678708637]
我々は,MR-to-Text生成問題に対処するために,自己学習フレームワークを採用する。
我々は,我々の生成モデルが最も不確実なデータを選択するための新しいデータ選択戦略を提案する。
論文 参考訳(メタデータ) (2022-05-19T16:25:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。