Fugu-MT 論文翻訳(概要): Digger: Detecting Copyright Content Mis-usage in Large Language Model Training

論文の概要: Digger: Detecting Copyright Content Mis-usage in Large Language Model Training

arxiv url: http://arxiv.org/abs/2401.00676v1
Date: Mon, 1 Jan 2024 06:04:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-03 16:19:46.015488
Title: Digger: Detecting Copyright Content Mis-usage in Large Language Model Training
Title（参考訳）: Digger:大規模言語モデルトレーニングにおける著作権侵害の検知
Authors: Haodong Li, Gelei Deng, Yi Liu, Kailong Wang, Yuekang Li, Tianwei Zhang, Yang Liu, Guoai Xu, Guosheng Xu, Haoyu Wang
Abstract要約: 本稿では,Large Language Models (LLMs) のトレーニングデータセット内で著作権のある書籍のコンテンツの存在を検知し,評価するためのフレームワークを提案する。このフレームワークはまた、各コンテンツサンプルのインクルージョンの可能性の信頼度推定も提供する。
参考スコア（独自算出の注目度）: 23.99093718956372
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pre-training, which utilizes extensive and varied datasets, is a critical factor in the success of Large Language Models (LLMs) across numerous applications. However, the detailed makeup of these datasets is often not disclosed, leading to concerns about data security and potential misuse. This is particularly relevant when copyrighted material, still under legal protection, is used inappropriately, either intentionally or unintentionally, infringing on the rights of the authors. In this paper, we introduce a detailed framework designed to detect and assess the presence of content from potentially copyrighted books within the training datasets of LLMs. This framework also provides a confidence estimation for the likelihood of each content sample's inclusion. To validate our approach, we conduct a series of simulated experiments, the results of which affirm the framework's effectiveness in identifying and addressing instances of content misuse in LLM training processes. Furthermore, we investigate the presence of recognizable quotes from famous literary works within these datasets. The outcomes of our study have significant implications for ensuring the ethical use of copyrighted materials in the development of LLMs, highlighting the need for more transparent and responsible data management practices in this field.
Abstract（参考訳）: 広範囲で多様なデータセットを利用する事前トレーニングは、多数のアプリケーションにわたる大規模言語モデル(LLM)の成功の重要な要因である。しかし、これらのデータセットの詳細な構成は公開されていないことが多く、データセキュリティと潜在的な誤用に関する懸念につながっている。これは、著作権のある素材が故意に、意図的に、または意図せず、著者の権利を侵害している場合に特に適切である。本稿では,LLMのトレーニングデータセット内で著作権のある書籍のコンテンツの存在を検知し,評価するための詳細なフレームワークを提案する。このフレームワークはまた、各コンテンツサンプルの包摂可能性の信頼度推定も提供する。提案手法の有効性を検証するため,LLMトレーニングプロセスにおけるコンテンツ誤用事例の特定と対処におけるフレームワークの有効性を検証したシミュレーション実験を行った。さらに,これらのデータセットに含まれる有名な文学作品の引用文の存在について検討する。本研究の結果は, LLMの発展における著作権資料の倫理的利用の確保に重要な意味を持ち, この分野における透明性と責任を負うデータ管理の実践の必要性を強調している。

関連論文リスト

SUV: Scalable Large Language Model Copyright Compliance with Regularized Selective Unlearning [22.76025238218253]
SUVは、大規模言語モデルが著作権のあるコンテンツを記憶することを防ぐために設計された選択的なアンラーニングフレームワークである。私たちは、冗長な著作権のあるコンテンツを、プラウシブルで一貫性のある代替品に置き換えます。我々は,500冊の有名な書籍の大規模データセットを用いて,我々のアプローチを検証する。
論文参考訳（メタデータ） (2025-03-29T02:33:26Z)
Information-Guided Identification of Training Data Imprint in (Proprietary) Large Language Models [52.439289085318634]
情報誘導プローブを用いて,プロプライエタリな大規模言語モデル (LLM) で知られているトレーニングデータを識別する方法を示す。我々の研究は、重要な観察の上に成り立っている: 高次数テキストパスは、暗記プローブにとって良い検索材料である。
論文参考訳（メタデータ） (2025-03-15T10:19:15Z)
A Statistical Hypothesis Testing Framework for Data Misappropriation Detection in Large Language Models [14.834820135578045]
我々は,LLMが他のLLMが生成したデータを組み込んだかどうかを判断するために,データ誤り検出の問題に焦点をあてる。この問題に対処するため,著作権付きトレーニングデータに透かしを埋め込む手法を提案し,仮説テスト問題としてデータ誤用の検出を定式化する。
論文参考訳（メタデータ） (2025-01-05T04:47:42Z)
CAP: Detecting Unauthorized Data Usage in Generative Models via Prompt Generation [1.6141139250981018]
Copyright Audit via Prompts Generation (CAP)は、MLモデルが不正なデータでトレーニングされているかどうかを自動的にテストするフレームワークである。具体的には、著作権のあるコンテンツを明らかにするためのモデルに適切なキーを生成するアプローチを考案する。有効性を証明するため,4つのIoTシナリオで収集した測定値について広範な評価を行った。
論文参考訳（メタデータ） (2024-10-08T08:49:41Z)
CopyLens: Dynamically Flagging Copyrighted Sub-Dataset Contributions to LLM Outputs [39.425944445393945]
CopyLensは,著作権付きデータセットが大規模言語モデルの応答に与える影響を分析するフレームワークである。実験の結果、CopyLensは提案したベースラインよりも効率と精度を15.2%向上し、エンジニアリング手法より58.7%、OOD検出ベースラインより0.21AUC向上した。
論文参考訳（メタデータ） (2024-10-06T11:41:39Z)
Can Watermarking Large Language Models Prevent Copyrighted Text Generation and Hide Training Data? [62.72729485995075]
著作権文書の生成に対する抑止剤としての透かしの有効性について検討する。我々は、透かしがメンバーシップ推論攻撃(MIA)の成功率に悪影響を及ぼすことを発見した。透かしにおける最近のMIAの成功率を改善するための適応的手法を提案する。
論文参考訳（メタデータ） (2024-07-24T16:53:09Z)
Evaluating Copyright Takedown Methods for Language Models [100.38129820325497]
言語モデル(LM)は、潜在的に著作権のある資料を含む様々なデータに対する広範な訓練からその能力を引き出す。本稿では,LMの著作権削除の可能性と副作用を初めて評価する。システムプロンプトの追加、デコード時間フィルタリングの介入、未学習アプローチなど、いくつかの戦略を検討する。
論文参考訳（メタデータ） (2024-06-26T18:09:46Z)
Lazy Data Practices Harm Fairness Research [49.02318458244464]
本稿では,公正な機械学習データセットを包括的に分析し,不反射的手法がアルゴリズム的公正度発見の到達度と信頼性をいかに妨げているかを示す。本分析では,(1)データと評価における特定の保護属性の表現のテクスブフラック,(2)データ前処理におけるマイノリティの広汎なテキストbf,(3)フェアネス研究の一般化を脅かすテキストbfopaqueデータ処理の3つの分野について検討した。この研究は、公正なMLにおけるデータプラクティスの批判的な再評価の必要性を強調し、データセットのソーシングと使用の両方を改善するための指針を提供する。
論文参考訳（メタデータ） (2024-04-26T09:51:24Z)
C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文参考訳（メタデータ） (2024-02-17T11:28:08Z)
PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文参考訳（メタデータ） (2023-10-03T22:37:01Z)
Source Attribution for Large Language Model-Generated Data [57.85840382230037]
合成テキストの生成に寄与したデータプロバイダを特定することで、ソース属性を実行できることが不可欠である。我々はこの問題を透かしによって取り組めることを示した。本稿では,アルゴリズム設計により,これらの重要な特性を満足する情報源属性フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-01T12:02:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。