論文の概要: DE-COP: Detecting Copyrighted Content in Language Models Training Data
- arxiv url: http://arxiv.org/abs/2402.09910v1
- Date: Thu, 15 Feb 2024 12:17:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 15:51:14.685420
- Title: DE-COP: Detecting Copyrighted Content in Language Models Training Data
- Title(参考訳): DE-COP:言語モデルのトレーニングデータにおける著作権付きコンテンツの検出
- Authors: Andr\'e V. Duarte, Xuandong Zhao, Arlindo L. Oliveira and Lei Li
- Abstract要約: 著作権のあるコンテンツの一部がトレーニングに含まれているかどうかを判定する手法であるDE-COPを提案する。
BookTectionは165冊の書籍から抜粋を抽出したベンチマークで、モデルによるトレーニングの切り離しの後に作成します。
実験の結果,DEC-COPはロジットが利用可能なモデルにおいて,検出性能(AUC)が9.6%向上することがわかった。
- 参考スコア(独自算出の注目度): 25.919278893876193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How can we detect if copyrighted content was used in the training process of
a language model, considering that the training data is typically undisclosed?
We are motivated by the premise that a language model is likely to identify
verbatim excerpts from its training text. We propose DE-COP, a method to
determine whether a piece of copyrighted content was included in training.
DE-COP's core approach is to probe an LLM with multiple-choice questions, whose
options include both verbatim text and their paraphrases. We construct
BookTection, a benchmark with excerpts from 165 books published prior and
subsequent to a model's training cutoff, along with their paraphrases. Our
experiments show that DE-COP surpasses the prior best method by 9.6% in
detection performance (AUC) on models with logits available. Moreover, DE-COP
also achieves an average accuracy of 72% for detecting suspect books on fully
black-box models where prior methods give $\approx$ 4% accuracy. Our code and
datasets are available at https://github.com/avduarte333/DE-COP_Method
- Abstract(参考訳): トレーニングデータが一般に公開されていないことを考慮して、言語モデルのトレーニングプロセスで著作権付きコンテンツが使用されているかどうかをどうやって検出できるのか?
私たちは、言語モデルがそのトレーニングテキストから動詞の抜粋を識別する可能性が高いという前提で動機付けられています。
著作権のあるコンテンツの一部がトレーニングに含まれているかどうかを判定する手法であるDE-COPを提案する。
DE-COPの中核的なアプローチは、動詞のテキストとパラフレーズの両方を含む複数選択の質問でLLMを探索することである。
booktectionという,モデルのトレーニングカットオフに先立って165冊の書籍を抜粋したベンチマークを,そのパラフレーズとともに構築する。
実験の結果,DEC-COPはロジットが利用可能なモデルにおいて,検出性能(AUC)が9.6%向上した。
さらに、DE-COPは、事前に$\approx$ 4%の精度が得られた完全ブラックボックスモデルで疑似書籍を検出する平均精度を72%達成している。
私たちのコードとデータセットはhttps://github.com/avduarte333/de-cop_methodで利用可能です。
関連論文リスト
- A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。
大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。
IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文 参考訳(メタデータ) (2024-10-29T04:14:23Z) - Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。
我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文 参考訳(メタデータ) (2024-09-23T07:55:35Z) - Protecting Copyrighted Material with Unique Identifiers in Large Language Model Training [55.321010757641524]
大きな言語モデル(LLM)のトレーニングに関する主要な公的な懸念は、著作権のあるオンラインテキストを悪用するかどうかである。
事前の会員推定法は、大量のトレーニングデータに類似した例によって誤解されることがある。
本稿では,Webユーザとコンテンツプラットフォームがtextbftextitunique 識別子を使用することを推奨する代替のtextitinsert-and-detection 手法を提案する。
論文 参考訳(メタデータ) (2024-03-23T06:36:32Z) - Copyright Traps for Large Language Models [6.902279764206365]
我々は著作権トラップを用いて,大規模言語モデルにおける著作権コンテンツの使用を検出することを提案する。
1.3Bモデルをスクラッチからトレーニングし、オリジナルコンテンツ(ブック)にトラップを挿入します。
直観とは裏腹に,従来の手法では,中長のトラップ文の繰り返し(100)が検出できないことが示されている。
論文 参考訳(メタデータ) (2024-02-14T18:09:53Z) - Detecting Pretraining Data from Large Language Models [90.12037980837738]
事前学習データ検出問題について検討する。
事前学習データを知ることなく、テキスト片とLCMへのブラックボックスアクセスを条件に、モデルが提供されたテキストでトレーニングされたかどうかを判断できますか?
簡単な仮説に基づく新しい検出手法Min-K% Probを提案する。
論文 参考訳(メタデータ) (2023-10-25T17:21:23Z) - Turning a CLIP Model into a Scene Text Detector [56.86413150091367]
近年,視覚言語モデルに基づく事前学習手法がテキスト検出の分野で有効な進歩を遂げている。
本稿では,CLIPモデルを事前学習せずにテキスト検出に利用することを目的とした,TCMと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T06:06:12Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Multitask Training with Text Data for End-to-End Speech Recognition [45.35605825009208]
本稿では,注目に基づくエンドツーエンド音声認識モデルに対するマルチタスク学習手法を提案する。
我々は、音声テキストとテキストのみのデータの両方でマルチタスクでトレーニングすることで、リスニング、アテンション、スペルモデルでデコーダを正規化する。
論文 参考訳(メタデータ) (2020-10-27T14:29:28Z) - Bootstrapping Weakly Supervised Segmentation-free Word Spotting through
HMM-based Alignment [0.5076419064097732]
ボックスアノテーションを行わずに書き起こしを利用して単語スポッティングモデルを訓練する手法を提案する。
これは、隠れマルコフモデルに基づいたトレーニング不要アライメント手順によって行われる。
デジタル転写データは、すでに多くの関心を集めている部分に対して存在するので、より一般的な単語スポッティングの活用に向けた大きな進歩であると考えています。
論文 参考訳(メタデータ) (2020-03-24T19:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。