論文の概要: MIA-Tuner: Adapting Large Language Models as Pre-training Text Detector
- arxiv url: http://arxiv.org/abs/2408.08661v1
- Date: Fri, 16 Aug 2024 11:09:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 15:57:38.962859
- Title: MIA-Tuner: Adapting Large Language Models as Pre-training Text Detector
- Title(参考訳): MIA-Tuner: 事前学習用テキスト検出器として大規模言語モデルを適用する
- Authors: Wenjie Fu, Huandong Wang, Chen Gao, Guanghua Liu, Yong Li, Tao Jiang,
- Abstract要約: 既存の手法では、様々な高度なMIAスコア関数を設計し、高い検出性能を実現している。
より正確な事前学習データ検出器としてLLM自体を指示する命令ベースのMIA手法であるMIA-Tunerを提案する。
既存の手法とMIA-Tunerによってもたらされるプライバシーリスクを軽減すべく、2つの命令ベースのセーフガードを設計する。
- 参考スコア(独自算出の注目度): 32.15773300068426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing parameters and expansive dataset of large language models (LLMs) highlight the urgent demand for a technical solution to audit the underlying privacy risks and copyright issues associated with LLMs. Existing studies have partially addressed this need through an exploration of the pre-training data detection problem, which is an instance of a membership inference attack (MIA). This problem involves determining whether a given piece of text has been used during the pre-training phase of the target LLM. Although existing methods have designed various sophisticated MIA score functions to achieve considerable detection performance in pre-trained LLMs, how to achieve high-confidence detection and how to perform MIA on aligned LLMs remain challenging. In this paper, we propose MIA-Tuner, a novel instruction-based MIA method, which instructs LLMs themselves to serve as a more precise pre-training data detector internally, rather than design an external MIA score function. Furthermore, we design two instruction-based safeguards to respectively mitigate the privacy risks brought by the existing methods and MIA-Tuner. To comprehensively evaluate the most recent state-of-the-art LLMs, we collect a more up-to-date MIA benchmark dataset, named WIKIMIA-24, to replace the widely adopted benchmark WIKIMIA. We conduct extensive experiments across various aligned and unaligned LLMs over the two benchmark datasets. The results demonstrate that MIA-Tuner increases the AUC of MIAs from 0.7 to a significantly high level of 0.9.
- Abstract(参考訳): 大規模言語モデル(LLM)のパラメータと拡張データセットの増加は、LLMに関連するプライバシーリスクと著作権の問題を評価する技術的ソリューションに対する緊急の要求を浮き彫りにする。
既存の研究は、メンバーシップ推論攻撃(MIA)の事例である事前学習データ検出問題の探索を通じて、このニーズに部分的に対処している。
この問題は、目標LLMの事前学習フェーズで、あるテキストが使用されているかどうかを決定することである。
既存の手法は、事前訓練されたLLMにおいてかなりの検出性能を達成するために、様々な高度なMIAスコア関数を設計してきたが、高信頼度検出の方法と、協調したLLM上でMIAを実行する方法はまだ難しいままである。
本稿では,新たなMIA手法であるMIA-Tunerを提案する。このMIA-Tunerは,外部MIAスコア関数を設計するのではなく,LCM自身が内部でより正確な事前学習データ検出器として機能するように指示する。
さらに、既存の方法とMIA-Tunerがもたらすプライバシーリスクを軽減すべく、2つの命令ベースのセーフガードを設計する。
最新のLLMを包括的に評価するために、WIKIMIA-24と呼ばれる最新のMIAベンチマークデータセットを収集し、広く採用されているWIKIMIAを置き換えた。
2つのベンチマークデータセット上で、様々な整列性および非整列性 LLM に対して広範な実験を行う。
その結果、MIA-TunerはMIAのAUCを0.7から0.9に引き上げた。
関連論文リスト
- Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。
現在の手法はバイナリ分類に重点を置いており、人間とAIのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。
バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-18T08:14:10Z) - Detecting Training Data of Large Language Models via Expectation Maximization [62.28028046993391]
メンバーシップ推論攻撃(MIA)は、特定のインスタンスがターゲットモデルのトレーニングデータの一部であるかどうかを判断することを目的としている。
大規模言語モデル(LLM)にMIAを適用することは、事前学習データの大規模化と、会員シップのあいまいさによって、ユニークな課題をもたらす。
EM-MIAは,予測最大化アルゴリズムを用いて,メンバーシップスコアとプレフィックススコアを反復的に洗練するLLMの新しいMIA手法である。
論文 参考訳(メタデータ) (2024-10-10T03:31:16Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - SoK: Membership Inference Attacks on LLMs are Rushing Nowhere (and How to Fix It) [16.673210422615348]
LLMに対するメンバーシップ推論攻撃(MIA)を行うための10以上の新しい手法が提案されている。
固定された-しかしランダム化された-レコードやモデルに依存する従来のMIAとは対照的に、これらの手法は主にポストホックで収集されたデータセットに基づいて評価される。
このランダム化の欠如は、メンバーと非メンバー間の分散シフトの懸念を引き起こす。
論文 参考訳(メタデータ) (2024-06-25T23:12:07Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。