論文の概要: LLMs and Memorization: On Quality and Specificity of Copyright Compliance
- arxiv url: http://arxiv.org/abs/2405.18492v2
- Date: Fri, 28 Jun 2024 16:12:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 21:05:30.275949
- Title: LLMs and Memorization: On Quality and Specificity of Copyright Compliance
- Title(参考訳): LLMと記憶:著作権コンプライアンスの品質と特異性について
- Authors: Felix B Mueller, Rebekka Görge, Anna K Bernzen, Janna C Pirk, Maximilian Poretschkin,
- Abstract要約: 大規模言語モデル(LLM)のメモリ化が懸念されている。
LLMは、著作権のある作品を含むトレーニングデータの一部を容易に再現できることが示されている。
これは、欧州AI法と同様に、既存の著作権法に違反している可能性があるため、解決すべき重要な問題である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Memorization in large language models (LLMs) is a growing concern. LLMs have been shown to easily reproduce parts of their training data, including copyrighted work. This is an important problem to solve, as it may violate existing copyright laws as well as the European AI Act. In this work, we propose a systematic analysis to quantify the extent of potential copyright infringements in LLMs using European law as an example. Unlike previous work, we evaluate instruction-finetuned models in a realistic end-user scenario. Our analysis builds on a proposed threshold of 160 characters, which we borrow from the German Copyright Service Provider Act and a fuzzy text matching algorithm to identify potentially copyright-infringing textual reproductions. The specificity of countermeasures against copyright infringement is analyzed by comparing model behavior on copyrighted and public domain data. We investigate what behaviors models show instead of producing protected text (such as refusal or hallucination) and provide a first legal assessment of these behaviors. We find that there are huge differences in copyright compliance, specificity, and appropriate refusal among popular LLMs. Alpaca, GPT 4, GPT 3.5, and Luminous perform best in our comparison, with OpenGPT-X, Alpaca, and Luminous producing a particularly low absolute number of potential copyright violations. Code will be published soon.
- Abstract(参考訳): 大規模言語モデル(LLM)のメモリ化が懸念されている。
LLMは、著作権のある作品を含むトレーニングデータの一部を容易に再現できることが示されている。
これは、欧州AI法と同様に、既存の著作権法に違反している可能性があるため、解決すべき重要な問題である。
本研究では,欧州法を例に,LLMにおける著作権侵害の可能性を定量化するための体系的な分析法を提案する。
従来の研究と異なり、現実的なエンドユーザーシナリオにおける命令精細モデルの評価を行う。
我々の分析は160文字のしきい値に基づいており、ドイツ著作権サービス提供法とファジィテキストマッチングアルゴリズムから借りている。
著作権及びパブリックドメインデータのモデル行動を比較することにより、著作権侵害対策の特異性を分析する。
本研究では,保護されたテキスト(拒絶や幻覚など)を生成する代わりに,行動モデルがどのような行動を示すかを検討するとともに,これらの行動に関する最初の法的評価を行う。
著作権の遵守, 明細性, 適切な拒絶には, 人気のLCM間で大きな違いがあることが判明した。
Alpaca、GPT 4、GPT 3.5、Luminousは、OpenGPT-X、Alpaca、Luminousと比べ、特に低い数の著作権侵害を発生させる。
コードはまもなく公開される予定だ。
関連論文リスト
- Can Watermarking Large Language Models Prevent Copyrighted Text Generation and Hide Training Data? [62.72729485995075]
著作権文書の生成に対する抑止剤としての透かしの有効性について検討する。
我々は、透かしがメンバーシップ推論攻撃(MIA)の成功率に悪影響を及ぼすことを発見した。
透かしにおける最近のMIAの成功率を改善するための適応的手法を提案する。
論文 参考訳(メタデータ) (2024-07-24T16:53:09Z) - Fantastic Copyrighted Beasts and How (Not) to Generate Them [83.77348858322523]
著作権のある文字は、画像生成サービスにとって難しい課題となる。
少なくとも1つの訴訟は、これらのキャラクターの世代に基づいて損害を受けた。
論文 参考訳(メタデータ) (2024-06-20T17:38:16Z) - SHIELD: Evaluation and Defense Strategies for Copyright Compliance in LLM Text Generation [24.644101178288476]
大規模言語モデル (LLMs) は機械学習を変容させたが、著作権を侵害するテキストを生成する可能性があるため、法的に重大な懸念を提起した。
本稿では,手法の評価,攻撃戦略の検証,著作権テキストの発生防止を目的としたリアルタイム防衛を提案する。
論文 参考訳(メタデータ) (2024-06-18T18:00:03Z) - Copyright Protection in Generative AI: A Technical Perspective [58.84343394349887]
ジェネレーティブAIは近年急速に進歩し、テキスト、画像、オーディオ、コードなどの合成コンテンツを作成する能力を拡大している。
これらのディープ・ジェネレーティブ・モデル(DGM)が生成したコンテンツの忠実さと信頼性が、著作権の重大な懸念を引き起こしている。
この研究は、技術的観点から著作権保護の包括的概要を提供することで、この問題を深く掘り下げている。
論文 参考訳(メタデータ) (2024-02-04T04:00:33Z) - Copyright Violations and Large Language Models [10.251605253237491]
本研究は,動詞の暗記のレンズを通して,著作権侵害や大規模言語モデルの問題を探究する。
一般的な書籍のコレクションやコーディング問題に対して,さまざまな言語モデルを用いて実験を行った。
本研究は,著作権規制の遵守を確実にするために,自然言語処理のさらなる検討の必要性と今後の発展への潜在的影響を強調した。
論文 参考訳(メタデータ) (2023-10-20T19:14:59Z) - SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore [125.06066299987106]
推論中にこのリスクパフォーマンストレードオフを管理する新しい言語モデルであるSILOを提案する。
SILOは(1)オープンライセンスコーパス(OLC)上でパラメトリックLMをトレーニングすることで構築されます。
データストアへのアクセスはドメインのパフォーマンスを大幅に改善し、PileでトレーニングされたLMでパフォーマンスギャップの90%を閉じる。
論文 参考訳(メタデータ) (2023-08-08T17:58:15Z) - Can Copyright be Reduced to Privacy? [23.639303165101385]
アルゴリズムの安定性は、コピーを検出する実用的なツールとして認識されるかもしれないが、そのようなコピーは必ずしも著作権侵害を構成するものではない、と我々は主張する。
著作権侵害の確立の基準として採択された場合、アルゴリズム的安定性は著作権法の意図された目的を損なう可能性がある。
論文 参考訳(メタデータ) (2023-05-24T07:22:41Z) - Are You Copying My Model? Protecting the Copyright of Large Language
Models for EaaS via Backdoor Watermark [58.60940048748815]
企業は大規模な言語モデル(LLM)に基づいたEmbeddding as a Service(E)の提供を開始した。
Eはモデル抽出攻撃に弱いため、LLMの所有者に重大な損失をもたらす可能性がある。
埋め込みにバックドアを埋め込むEmbMarkerという埋め込み透かし手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T08:28:54Z) - Whose Text Is It Anyway? Exploring BigCode, Intellectual Property, and
Ethics [1.933681537640272]
本稿では,大規模言語モデル(LLM)の学習に用いるオープンデータセットの著作権権について検討する。
我々の論文は、オープンデータセットでトレーニングされたLCMは、どのようにして使用済みデータの著作権上の利益を回避できるのか、と問う。
論文 参考訳(メタデータ) (2023-04-06T03:09:26Z) - Foundation Models and Fair Use [96.04664748698103]
米国や他の国では、著作権のあるコンテンツは、公正な使用原理のために責任を負わずに基礎モデルを構築するために使われることがある。
本研究では,著作権コンテンツに基づく基礎モデルの開発と展開の潜在的なリスクについて調査する。
基礎モデルが公正な使用と一致し続けるのに役立つ技術的緩和について論じる。
論文 参考訳(メタデータ) (2023-03-28T03:58:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。