論文の概要: CopyBench: Measuring Literal and Non-Literal Reproduction of Copyright-Protected Text in Language Model Generation
- arxiv url: http://arxiv.org/abs/2407.07087v1
- Date: Tue, 9 Jul 2024 17:58:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 16:57:59.115360
- Title: CopyBench: Measuring Literal and Non-Literal Reproduction of Copyright-Protected Text in Language Model Generation
- Title(参考訳): CopyBench: 言語モデル生成における著作権保護テキストのリテラルと非リテラル再現の測定
- Authors: Tong Chen, Akari Asai, Niloofar Mireshghallah, Sewon Min, James Grimmelmann, Yejin Choi, Hannaneh Hajishirzi, Luke Zettlemoyer, Pang Wei Koh,
- Abstract要約: 言語モデル(LM)による著作権保護されたコンテンツの再生の度合いを評価することは、AIと法的なコミュニティにとって重要な関心事である。
LM世代におけるリテラルコピーと非リテラルコピーの両方を測定するために設計されたベンチマークであるCopyBenchを紹介する。
リテラル複写は比較的稀であるが、イベント複写と文字複写という2種類の非リテラル複写は、7Bパラメータのモデルでも発生する。
- 参考スコア(独自算出の注目度): 132.00910067533982
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating the degree of reproduction of copyright-protected content by language models (LMs) is of significant interest to the AI and legal communities. Although both literal and non-literal similarities are considered by courts when assessing the degree of reproduction, prior research has focused only on literal similarities. To bridge this gap, we introduce CopyBench, a benchmark designed to measure both literal and non-literal copying in LM generations. Using copyrighted fiction books as text sources, we provide automatic evaluation protocols to assess literal and non-literal copying, balanced against the model utility in terms of the ability to recall facts from the copyrighted works and generate fluent completions. We find that, although literal copying is relatively rare, two types of non-literal copying -- event copying and character copying -- occur even in models as small as 7B parameters. Larger models demonstrate significantly more copying, with literal copying rates increasing from 0.2% to 10.5% and non-literal copying from 2.3% to 6.9% when comparing Llama3-8B and 70B models, respectively. We further evaluate the effectiveness of current strategies for mitigating copying and show that (1) training-time alignment can reduce literal copying but may increase non-literal copying, and (2) current inference-time mitigation methods primarily reduce literal but not non-literal copying.
- Abstract(参考訳): 言語モデル(LM)による著作権保護されたコンテンツの再生の度合いを評価することは、AIと法的なコミュニティにとって重要な関心事である。
再現度を評価する際には、リテラルと非リテラルの類似性の両方が裁判所によって検討されているが、先行研究はリテラルの類似性のみに焦点を当てている。
このギャップを埋めるために、私たちは、LM世代におけるリテラルと非リテラルの両方のコピーを測定するために設計されたベンチマークであるCopyBenchを紹介します。
著作権書をテキストソースとして使用することにより,著作権書から事実を想起し,流動的な完成物を生成する能力の観点から,リテラルおよびノンリテラルコピーを評価するための自動評価プロトコルを提供する。
リテラル複写は比較的稀であるが、イベント複写と文字複写という2種類の非リテラル複写は、7Bパラメータのモデルでも発生する。
Llama3-8Bと70Bの比較では、リテラルコピー率は0.2%から10.5%に増加し、非リテラルコピーは2.3%から6.9%に増加した。
さらに,(1) トレーニング時アライメントはリテラル複写を削減できるが,非リテラル複写を増大させる可能性があり,(2) 現行の推論時緩和手法はリテラルを減少させるが,非リテラル複写を減少させるものではないことを示す。
関連論文リスト
- CopyLens: Dynamically Flagging Copyrighted Sub-Dataset Contributions to LLM Outputs [39.425944445393945]
CopyLensは,著作権付きデータセットが大規模言語モデルの応答に与える影響を分析するフレームワークである。
実験の結果、CopyLensは提案したベースラインよりも効率と精度を15.2%向上し、エンジニアリング手法より58.7%、OOD検出ベースラインより0.21AUC向上した。
論文 参考訳(メタデータ) (2024-10-06T11:41:39Z) - Language Models "Grok" to Copy [36.50007948478452]
本稿では,先行する文脈からテキストをコピーする能力に着目し,言語モデルの事前学習のダイナミクスについて検討する。
本稿では,トランスフォーマーをベースとした言語モデルが,グルーキングと同様の模倣能力を発達させる,という新たな視点を提案する。
グラッキングとコンテキストコピーの関連性は、より効果的な言語モデルトレーニングに有用な洞察をもたらすと我々は主張する。
論文 参考訳(メタデータ) (2024-09-14T03:11:00Z) - Fantastic Copyrighted Beasts and How (Not) to Generate Them [83.77348858322523]
著作権のある文字は、画像生成サービスにとって難しい課題となる。
少なくとも1つの訴訟は、これらのキャラクターの世代に基づいて損害を受けた。
論文 参考訳(メタデータ) (2024-06-20T17:38:16Z) - BERT-Enhanced Retrieval Tool for Homework Plagiarism Detection System [0.0]
GPT-3.5をベースとして,32,927対のテキストプラギアリズム検出データセットを生成する,プラギアライズされたテキストデータ生成手法を提案する。
また,BERT を用いた Faiss に基づく盗作識別手法を提案する。
このモデルの性能は, 98.86%, 98.90%, 98.86%, 0.9888, 精度, 精度, リコール, F1スコアなど, 様々な指標において他のモデルよりも優れていた。
論文 参考訳(メタデータ) (2024-04-01T12:20:34Z) - A Dataset and Benchmark for Copyright Infringement Unlearning from Text-to-Image Diffusion Models [52.49582606341111]
著作権法は、クリエイティブ作品を再生、配布、収益化する排他的権利をクリエイターに与えている。
テキスト・ツー・イメージ・ジェネレーションの最近の進歩は、著作権の執行に重大な課題をもたらしている。
CLIP、ChatGPT、拡散モデルを調和させてデータセットをキュレートする新しいパイプラインを導入する。
論文 参考訳(メタデータ) (2024-01-04T11:14:01Z) - Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - DPIC: Decoupling Prompt and Intrinsic Characteristics for LLM Generated Text Detection [56.513637720967566]
大規模言語モデル(LLM)は、盗作、eコマースプラットフォームへの偽レビューの設置、炎症性偽ツイートなどの誤用のリスクを引き起こすテキストを生成することができる。
既存の高品質な検出手法では、本質的な特徴を抽出するために、モデルの内部にアクセスする必要がある。
ブラックボックスモデル生成テキストの深い内在特性を抽出する。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z) - Reproduction and Replication of an Adversarial Stylometry Experiment [8.374836126235499]
本稿では,著者帰属に対する防衛に関する基礎的研究において,実験を再現し,再現する。
完全自動翻訳法であるラウンドトリップ翻訳が再検査に有用であることを示す新たな証拠が発見された。
論文 参考訳(メタデータ) (2022-08-15T18:24:00Z) - May the Force Be with Your Copy Mechanism: Enhanced Supervised-Copy
Method for Natural Language Generation [1.2453219864236247]
本稿では,どの単語をコピーする必要があるか,どの単語を生成する必要があるかをモデルが決定するのに役立つ,コピーネットワークの新しい教師付きアプローチを提案する。
具体的には、ソースシーケンスとターゲット語彙をコピーのガイダンスとして利用する目的関数を再定義する。
データ・テキスト・ジェネレーションと抽象的要約タスクの実験結果から,本手法が複写品質を高め,抽象性の程度を向上することを確認した。
論文 参考訳(メタデータ) (2021-12-20T06:54:28Z) - On the Copying Behaviors of Pre-Training for Neural Machine Translation [63.914940899327966]
これまでの研究で、ニューラルネットワーク翻訳(NMT)モデルを事前訓練言語モデル(LM)で初期化することは、モデルのトレーニングを高速化し、モデル性能を向上させることが示されている。
本研究では,NMTのトレーニング目標とNMTの訓練目標との相違から,NMTの事前訓練における重要な副作用を同定する。
本稿では,復号における複写動作を制御するために,複写ペナルティ(copying penalty)というシンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2021-07-17T10:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。