論文の概要: Did the Neurons Read your Book? Document-level Membership Inference for Large Language Models
- arxiv url: http://arxiv.org/abs/2310.15007v2
- Date: Mon, 15 Jul 2024 19:12:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 00:00:40.080058
- Title: Did the Neurons Read your Book? Document-level Membership Inference for Large Language Models
- Title(参考訳): ニューロンはあなたの本を読みましたか? 大規模言語モデルのための文書レベルのメンバーシップ推論
- Authors: Matthieu Meeus, Shubham Jain, Marek Rei, Yves-Alexandre de Montjoye,
- Abstract要約: 文書レベルのメンバシップを予測し,OpenLLaMA-7B上でインスタンス化するブラックボックス手法を提案する。
本稿では,文書レベルのメンバシップタスクにおいて,プライバシ文献で使用される文レベルのメンバシップ推論攻撃よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 17.993892458845124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With large language models (LLMs) poised to become embedded in our daily lives, questions are starting to be raised about the data they learned from. These questions range from potential bias or misinformation LLMs could retain from their training data to questions of copyright and fair use of human-generated text. However, while these questions emerge, developers of the recent state-of-the-art LLMs become increasingly reluctant to disclose details on their training corpus. We here introduce the task of document-level membership inference for real-world LLMs, i.e. inferring whether the LLM has seen a given document during training or not. First, we propose a procedure for the development and evaluation of document-level membership inference for LLMs by leveraging commonly used data sources for training and the model release date. We then propose a practical, black-box method to predict document-level membership and instantiate it on OpenLLaMA-7B with both books and academic papers. We show our methodology to perform very well, reaching an AUC of 0.856 for books and 0.678 for papers. We then show our approach to outperform the sentence-level membership inference attacks used in the privacy literature for the document-level membership task. We further evaluate whether smaller models might be less sensitive to document-level inference and show OpenLLaMA-3B to be approximately as sensitive as OpenLLaMA-7B to our approach. Finally, we consider two mitigation strategies and find the AUC to slowly decrease when only partial documents are considered but to remain fairly high when the model precision is reduced. Taken together, our results show that accurate document-level membership can be inferred for LLMs, increasing the transparency of technology poised to change our lives.
- Abstract(参考訳): 大きな言語モデル(LLM)が私たちの日常生活に組み込まれようとしているため、彼らが学んだデータに関する疑問が提起され始めている。
これらの質問は、潜在的なバイアスや誤った情報 LLM がトレーニングデータから人間の生成したテキストの著作権と公正な利用に関する質問まで、さまざまである。
しかし、これらの疑問が浮かび上がっている一方で、最近の最先端のLLMの開発者は、彼らのトレーニングコーパスの詳細を開示することへの消極的になっている。
本稿では,実世界のLCMに対する文書レベルのメンバシップ推論,すなわちLLMがトレーニング中に特定の文書を見たかどうかを推定するタスクを紹介する。
まず、トレーニングによく使われるデータソースとモデルリリース日を利用して、LCMのための文書レベルのメンバシップ推論の開発と評価を行う手法を提案する。
次に,本書と学術論文の両方で,文書レベルのメンバシップを予測し,OpenLLaMA-7B上でインスタンス化する,実用的なブラックボックス手法を提案する。
我々は,本では0.856,論文では0.678のAUCを達成し,その性能を示す。
次に、文書レベルのメンバシップタスクにおいて、プライバシ文献で使用される文レベルのメンバシップ推論攻撃よりも優れる方法を示す。
さらに,より小さなモデルではドキュメントレベルの推論に敏感でない可能性も評価し,OpenLLaMA-3BはOpenLLaMA-7Bと同じくらいの敏感であることを示す。
最後に,2つの緩和戦略を考察し,部分文書のみを考慮した場合のAUCの速度を緩やかに低下させるが,モデル精度が低下した場合の精度は比較的高い。
この結果から,LCMにおいて正確な文書レベルのメンバシップを推定できることが示され,私たちの生活を変えようとしている技術の透明性が向上した。
関連論文リスト
- Towards Robust Evaluation of Unlearning in LLMs via Data Transformations [17.927224387698903]
大きな言語モデル(LLM)は、通常のNLPベースのユースケースからAIエージェントまで、幅広いアプリケーションで大きな成功を収めている。
近年,マシン・アンラーニング(MUL)分野の研究が活発化している。
主な考え方は、LLMが通常のタスクのパフォーマンス損失に悩まされることなく、特定の情報(例えば、PII)を忘れること(未学習)を強制することである。
論文 参考訳(メタデータ) (2024-11-23T07:20:36Z) - Membership Inference Attack against Long-Context Large Language Models [8.788010048413188]
すべての情報を長いコンテキストに統合することで、センシティブな情報のリポジトリになる、と我々は主張する。
LCLMに適した6つのメンバシップ推論攻撃戦略を提案する。
LCLMがそのような会員情報を明らかにするのに有効な理由について検討する。
論文 参考訳(メタデータ) (2024-11-18T09:50:54Z) - Reversing the Forget-Retain Objectives: An Efficient LLM Unlearning Framework from Logit Difference [39.29939437034823]
我々は、ログ差分(ULD)からのアンラーニングと呼ばれる新しいアンラーニングフレームワークを提案する。
本手法は,LLMの全体的な能力を維持しつつ,意図した忘れを効果的に実現し,トレーニング時間を3倍以上に短縮する。
論文 参考訳(メタデータ) (2024-06-12T19:26:35Z) - MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series [86.31735321970481]
私たちはMAP-Neoをオープンソースにしました。これは、4.5Tの高品質トークン上で、スクラッチからトレーニングされた7Bパラメータを持つバイリンガル言語モデルです。
MAP-Neo は,既存の最先端 LLM と比較して性能が劣る初の完全オープンソースバイリンガル LLM である。
論文 参考訳(メタデータ) (2024-05-29T17:57:16Z) - ReMoDetect: Reward Models Recognize Aligned LLM's Generations [55.06804460642062]
大型言語モデル (LLM) は人間の好むテキストを生成する。
本稿では,これらのモデルで共有される共通特性について述べる。
報奨モデルの検出能力をさらに向上する2つのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T17:38:33Z) - Second-Order Information Matters: Revisiting Machine Unlearning for Large Language Models [1.443696537295348]
プライバシーの漏洩と著作権侵害はまだ未発見だ。
我々の未学習のアルゴリズムは、データに依存しない/モデルに依存しないだけでなく、ユーティリティの保存やプライバシー保証の観点からも堅牢であることが証明されている。
論文 参考訳(メタデータ) (2024-03-13T18:57:30Z) - Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation [128.01050030936028]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - Where is the answer? Investigating Positional Bias in Language Model Knowledge Extraction [36.40833517478628]
大規模な言語モデルでは、更新を最新状態に保つか、あるいは新しいドメインに適応する必要がある。
1つの鍵は、記憶された情報がクエリプロンプトで抽出可能な方法で最新の情報を記憶することである。
微調整中に文書の難易度を最小化しているにもかかわらず、LLMはプロンプト文を通して情報を取り出すのに苦労している。
論文 参考訳(メタデータ) (2024-02-16T06:29:16Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Aligning Large Language Models with Human: A Survey [53.6014921995006]
広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。
その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。
本調査では,これらのアライメント技術の概要について概観する。
論文 参考訳(メタデータ) (2023-07-24T17:44:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。