論文の概要: Protecting Copyrighted Material with Unique Identifiers in Large Language Model Training
- arxiv url: http://arxiv.org/abs/2403.15740v2
- Date: Mon, 12 Aug 2024 08:21:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 23:38:15.627780
- Title: Protecting Copyrighted Material with Unique Identifiers in Large Language Model Training
- Title(参考訳): 大規模言語モデル学習における固有識別器による著作権物質保護
- Authors: Shuai Zhao, Linchao Zhu, Ruijie Quan, Yi Yang,
- Abstract要約: 大きな言語モデル(LLM)のトレーニングに関する主要な公的な懸念は、著作権のあるオンラインテキストを悪用するかどうかである。
事前の会員推定法は、大量のトレーニングデータに類似した例によって誤解されることがある。
本稿では,Webユーザとコンテンツプラットフォームがtextbftextitunique 識別子を使用することを推奨する代替のtextitinsert-and-detection 手法を提案する。
- 参考スコア(独自算出の注目度): 55.321010757641524
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A major public concern regarding the training of large language models (LLMs) is whether they abusing copyrighted online text. Previous membership inference methods may be misled by similar examples in vast amounts of training data. Additionally, these methods are often too complex for general users to understand and use, making them centralized, lacking transparency, and trustworthiness. To address these issues, we propose an alternative \textit{insert-and-detection} methodology, advocating that web users and content platforms employ \textbf{\textit{unique identifiers}} for reliable and independent membership inference. Users and platforms can create their own identifiers, embed them in copyrighted text, and independently detect them in future LLMs. As an initial demonstration, we introduce \textit{ghost sentences}, a primitive form of unique identifiers, consisting primarily of passphrases made up of random words. By embedding one ghost sentences in a few copyrighted texts, users can detect its membership using a perplexity test and a \textit{user-friendly} last-$k$ words test. The perplexity test is based on the fact that LLMs trained on natural language should exhibit high perplexity when encountering unnatural passphrases. As the repetition increases, users can leverage the verbatim memorization ability of LLMs to perform a last-$k$ words test by chatting with LLMs without writing any code. Both tests offer rigorous statistical guarantees for membership inference. For LLaMA-13B, a perplexity test on 30 ghost sentences with an average of 7 repetitions in 148K examples yields a 0.891 ROC AUC. For the last-$k$ words test with OpenLLaMA-3B, 11 out of 16 users, with an average of 24 examples each, successfully identify their data from 1.8M examples.
- Abstract(参考訳): 大きな言語モデル(LLM)のトレーニングに関する主要な公的な懸念は、著作権のあるオンラインテキストを悪用するかどうかである。
事前の会員推定法は、大量のトレーニングデータに類似した例によって誤解されることがある。
さらに、これらの方法はしばしば、一般ユーザーが理解し、使用するには複雑すぎるため、中央集権化され、透明性が欠如し、信頼性が損なわれる。
これらの問題に対処するために、Webユーザとコンテンツプラットフォームは、信頼性と独立性のあるメンバシップ推論のために、 \textbf{\textit{uniqueidentations}} を採用することを提唱する、代替的な \textit{insert-and-detection} 手法を提案する。
ユーザとプラットフォームは、独自の識別子を作成し、著作権のあるテキストに埋め込み、将来のLLMでそれらを独立して検出することができる。
最初のデモとして、ランダムな単語からなるパスフレーズからなる、ユニークな識別子の原始的な形式である \textit{ghost sentences} を紹介する。
いくつかの著作権のあるテキストに1つのゴースト文を埋め込むことで、ユーザーはパープレキシティテストと‘textit{user-friendly} last-k$ words testでメンバーシップを検出することができる。
パープレキシティテストは、自然言語で訓練されたLSMが不自然なパスフレーズに遭遇する際に高いパープレキシティを示すという事実に基づいている。
繰り返しが増加するにつれて、ユーザはLLMの冗長な暗記能力を利用して、コードを書かずにLLMとチャットすることで、最後の$kの単語テストを実行することができる。
どちらのテストも、メンバーシップ推論の厳格な統計的保証を提供する。
LLaMA-13Bでは、平均で7回148Kの例で30のゴースト文に対するパープレキシティテストが行われ、0.891のOC AUCが得られた。
OpenLLaMA-3Bでの最後の$kのワードテストでは、16ユーザ中11ユーザがそれぞれ平均24のサンプルを使用して、1.8Mのサンプルからデータを識別することに成功した。
関連論文リスト
- Identifying the Source of Generation for Large Language Models [21.919661430250798]
LLM(Large Language Model)は、複数の文書ソースからのテキストを記憶する言語である。
LLMは生成されたコンテンツに関する文書情報を提供できない。
この研究は、デコードステップでトークンレベルのソース識別を導入する。
論文 参考訳(メタデータ) (2024-07-05T08:52:15Z) - Special Characters Attack: Toward Scalable Training Data Extraction From Large Language Models [36.58320580210008]
特定の特殊文字またはそれらと英語の文字の組み合わせがより強いメモリトリガーであり、より深刻なデータ漏洩を引き起こすことを示す。
トレーニングデータ漏洩を誘発する簡易かつ効果的な特殊文字攻撃(SCA)を提案する。
論文 参考訳(メタデータ) (2024-05-09T02:35:32Z) - MiniCheck: Efficient Fact-Checking of LLMs on Grounding Documents [62.02920842630234]
GPT-4レベルの性能を持つ小型モデルを400倍のコストで構築する方法を示す。
既存のデータセットを LLM-AggreFact ベンチマークにまとめる。
我々の最良のシステム MiniCheck-FT5 (770Mパラメータ) は、同等の大きさの全てのシステムより優れ、GPT-4精度に達する。
論文 参考訳(メタデータ) (2024-04-16T17:59:10Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - Elephants Never Forget: Testing Language Models for Memorization of
Tabular Data [21.912611415307644]
大規模言語モデル (LLM) は様々なタスクに適用できるが、データ汚染と記憶の重大な問題はしばしば誇張される。
本稿では, 条件分布モデリングの統計的テストや, 暗記を識別する4つのテストなど, 汚染度を評価するための様々な手法を紹介する。
論文 参考訳(メタデータ) (2024-03-11T12:07:13Z) - User Modeling in the Era of Large Language Models: Current Research and
Future Directions [26.01029236902786]
ユーザモデリング(UM)は、特定のユーザに関するユーザデータからパターンを発見し、表現を学ぶことを目的としている。
データは通常、大量のユーザ生成コンテンツ(UGC)とオンラインインタラクションを含むため、テキストとグラフの2つの一般的なタイプのユーザデータである。
近年,大規模言語モデル (LLM) はテキストデータの生成,理解,推論において優れた性能を示している。
論文 参考訳(メタデータ) (2023-12-11T03:59:36Z) - LLatrieval: LLM-Verified Retrieval for Verifiable Generation [67.93134176912477]
検証可能な生成は、大きな言語モデル(LLM)がドキュメントをサポートするテキストを生成することを目的としている。
本稿では,LLatrieval (Large Language Model Verified Retrieval)を提案する。
実験により、LLatrievalは幅広いベースラインを著しく上回り、最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-14T01:38:02Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。