論文の概要: Ghost Sentence: A Tool for Everyday Users to Copyright Data from Large Language Models
- arxiv url: http://arxiv.org/abs/2403.15740v1
- Date: Sat, 23 Mar 2024 06:36:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 21:12:36.488077
- Title: Ghost Sentence: A Tool for Everyday Users to Copyright Data from Large Language Models
- Title(参考訳): Ghost Sentence: 大規模言語モデルからデータを著作権保護するためのツール
- Authors: Shuai Zhao, Linchao Zhu, Ruijie Quan, Yi Yang,
- Abstract要約: Webユーザデータは、事前訓練された大規模言語モデル(LLM)のエコシステムにおいて中心的な役割を果たす
そこで本研究では,利用者が繰り返し文書に個人パスフレーズを挿入することを提案する。
LLMの生成されたコンテンツに識別されると、ユーザは自分のデータがトレーニングに使われていることを確認できます。
- 参考スコア(独自算出の注目度): 55.321010757641524
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Web user data plays a central role in the ecosystem of pre-trained large language models (LLMs) and their fine-tuned variants. Billions of data are crawled from the web and fed to LLMs. How can \textit{\textbf{everyday web users}} confirm if LLMs misuse their data without permission? In this work, we suggest that users repeatedly insert personal passphrases into their documents, enabling LLMs to memorize them. These concealed passphrases in user documents, referred to as \textit{ghost sentences}, once they are identified in the generated content of LLMs, users can be sure that their data is used for training. To explore the effectiveness and usage of this copyrighting tool, we define the \textit{user training data identification} task with ghost sentences. Multiple datasets from various sources at different scales are created and tested with LLMs of different sizes. For evaluation, we introduce a last $k$ words verification manner along with two metrics: document and user identification accuracy. In the specific case of instruction tuning of a 3B LLaMA model, 11 out of 16 users with ghost sentences identify their data within the generation content. These 16 users contribute 383 examples to $\sim$1.8M training documents. For continuing pre-training of a 1.1B TinyLlama model, 61 out of 64 users with ghost sentences identify their data within the LLM output. These 64 users contribute 1156 examples to $\sim$10M training documents.
- Abstract(参考訳): Webユーザデータは、事前訓練された大規模言語モデル(LLM)とその微調整されたバリエーションのエコシステムにおいて中心的な役割を果たす。
数十億のデータがWebからクロールされ、LLMに供給される。
LLMが許可なくデータを誤用しているかどうか、どうやって確認できますか?
本研究は,個人用パスフレーズを文書に繰り返し挿入し,LLMが記憶することを可能にすることを提案する。
これらの隠されたパスフレーズは、ユーザー文書で「textit{ghost sentences}」と呼ばれ、LLMの生成されたコンテンツで識別されると、ユーザーは自分のデータがトレーニングに使われていることを確認できる。
この著作権ツールの有効性と使用法を検討するため,ゴースト文を用いたtextit{user training data identification} タスクを定義した。
さまざまなスケールのソースからの複数のデータセットが作成され、異なるサイズのLLMでテストされる。
評価には、文書とユーザ識別の正確さの2つの指標とともに、最後の$k$ワードの検証方法を導入する。
3B LLaMAモデルの特定のチューニングの場合、ゴースト文を持つ16人中11人が生成内容内でデータを識別する。
これら16ユーザは、$\sim$1.8Mのトレーニングドキュメントに383のサンプルをコントリビュートしている。
1.1BのTinyLlamaモデルの事前トレーニングを継続するために、ゴースト文を持つ64人中61人がLLM出力内でデータを識別している。
これらの64ユーザは、$\sim$10Mのトレーニングドキュメントに1156のサンプルをコントリビュートしている。
関連論文リスト
- CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - Elephants Never Forget: Testing Language Models for Memorization of
Tabular Data [21.912611415307644]
大規模言語モデル (LLM) は様々なタスクに適用できるが、データ汚染と記憶の重大な問題はしばしば誇張される。
本稿では, 条件分布モデリングの統計的テストや, 暗記を識別する4つのテストなど, 汚染度を評価するための様々な手法を紹介する。
論文 参考訳(メタデータ) (2024-03-11T12:07:13Z) - User Modeling in the Era of Large Language Models: Current Research and
Future Directions [26.01029236902786]
ユーザモデリング(UM)は、特定のユーザに関するユーザデータからパターンを発見し、表現を学ぶことを目的としている。
データは通常、大量のユーザ生成コンテンツ(UGC)とオンラインインタラクションを含むため、テキストとグラフの2つの一般的なタイプのユーザデータである。
近年,大規模言語モデル (LLM) はテキストデータの生成,理解,推論において優れた性能を示している。
論文 参考訳(メタデータ) (2023-12-11T03:59:36Z) - LLatrieval: LLM-Verified Retrieval for Verifiable Generation [67.93134176912477]
検証可能な生成は、大きな言語モデル(LLM)がドキュメントをサポートするテキストを生成することを目的としている。
本稿では,LLatrieval (Large Language Model Verified Retrieval)を提案する。
実験により、LLatrievalは幅広いベースラインを著しく上回り、最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-14T01:38:02Z) - Can Text-based Knowledge Graph Completion Benefit From Zero-Shot Large
Language Models? [10.56565195524981]
大規模言語モデル(LLM)は、NLPタスクにおいて顕著に改善されている。
本研究では,より効率的なテキスト記述がモデル性能を増幅できるかどうかを考察する。
論文 参考訳(メタデータ) (2023-10-12T12:31:23Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - Detecting LLM-Generated Text in Computing Education: A Comparative Study
for ChatGPT Cases [0.0]
大規模言語モデル(LLM)は、教育における学術的完全性に深刻な脅威をもたらしている。
現代の検出器は、学術的完全性を維持するための完全なソリューションを提供するために、まだ改善を必要としている。
論文 参考訳(メタデータ) (2023-07-10T12:18:34Z) - LLM Paternity Test: Generated Text Detection with LLM Genetic Inheritance [58.63888295471187]
大きな言語モデル(LLM)は、様々な誤用のリスクを負うテキストを生成することができる。
モデル関連テキスト検出手法 LLM Paternity Test (LLM-Pat) を提案する。
高い類似性は、候補テキストが遺伝的特性に似た機械生成であることを示している。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。