論文の概要: Copyright Violations and Large Language Models
- arxiv url: http://arxiv.org/abs/2310.13771v1
- Date: Fri, 20 Oct 2023 19:14:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 05:28:00.111613
- Title: Copyright Violations and Large Language Models
- Title(参考訳): 著作権侵害と大規模言語モデル
- Authors: Antonia Karamolegkou, Jiaang Li, Li Zhou, Anders S{\o}gaard
- Abstract要約: 本研究は,動詞の暗記のレンズを通して,著作権侵害や大規模言語モデルの問題を探究する。
一般的な書籍のコレクションやコーディング問題に対して,さまざまな言語モデルを用いて実験を行った。
本研究は,著作権規制の遵守を確実にするために,自然言語処理のさらなる検討の必要性と今後の発展への潜在的影響を強調した。
- 参考スコア(独自算出の注目度): 10.251605253237491
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models may memorize more than just facts, including entire chunks of
texts seen during training. Fair use exemptions to copyright laws typically
allow for limited use of copyrighted material without permission from the
copyright holder, but typically for extraction of information from copyrighted
materials, rather than {\em verbatim} reproduction. This work explores the
issue of copyright violations and large language models through the lens of
verbatim memorization, focusing on possible redistribution of copyrighted text.
We present experiments with a range of language models over a collection of
popular books and coding problems, providing a conservative characterization of
the extent to which language models can redistribute these materials. Overall,
this research highlights the need for further examination and the potential
impact on future developments in natural language processing to ensure
adherence to copyright regulations. Code is at
\url{https://github.com/coastalcph/CopyrightLLMs}.
- Abstract(参考訳): 言語モデルは、トレーニング中に見られるテキスト全体を含む、単なる事実以上のことを記憶することができる。
著作権法に対する公正な使用除外は、典型的には、著作権所有者の許可なく著作権物質の使用を制限するが、典型的には、複製ではなく、著作権物質から情報を抽出する。
本研究は,著作権文書の再配布に焦点をあて,冗長記憶のレンズを通して,著作権侵害や大規模言語モデルの問題を探る。
そこで,本研究では,人気書籍の集成やコーディング問題に対する言語モデルを用いた実験を行い,言語モデルがそれらの資料を再分配できる程度を保守的に評価する。
本研究は,著作権規制の遵守を確実にするために,自然言語処理のさらなる検討の必要性と今後の発展への潜在的影響を強調した。
コードは \url{https://github.com/coastalcph/CopyrightLLMs} にある。
関連論文リスト
- A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。
大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。
IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文 参考訳(メタデータ) (2024-10-29T04:14:23Z) - Measuring Copyright Risks of Large Language Model via Partial Information Probing [14.067687792633372]
LLM(Large Language Models)のトレーニングに使用されるデータソースについて検討する。
著作権のあるテキストの一部をLSMに入力し、それを完了するように促し、生成したコンテンツとオリジナルの著作権のある資料の重複を分析します。
これらの部分的な入力に基づいて著作権素材と重なり合うコンテンツをLLMが生成できることが本研究で実証された。
論文 参考訳(メタデータ) (2024-09-20T18:16:05Z) - Can Watermarking Large Language Models Prevent Copyrighted Text Generation and Hide Training Data? [62.72729485995075]
著作権文書の生成に対する抑止剤としての透かしの有効性について検討する。
我々は、透かしがメンバーシップ推論攻撃(MIA)の成功率に悪影響を及ぼすことを発見した。
透かしにおける最近のMIAの成功率を改善するための適応的手法を提案する。
論文 参考訳(メタデータ) (2024-07-24T16:53:09Z) - SHIELD: Evaluation and Defense Strategies for Copyright Compliance in LLM Text Generation [24.644101178288476]
大規模言語モデル(LLM)は機械学習に変化をもたらしたが、重大な法的懸念を引き起こした。
LLMは著作権を侵害したり、著作権のないテキストを過剰に制限したりすることができる。
本稿では,著作権テキストの発生を防止するために,軽量でリアルタイムな防衛手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T18:00:03Z) - LLMs and Memorization: On Quality and Specificity of Copyright Compliance [0.0]
大規模言語モデル(LLM)のメモリ化が懸念されている。
LLMは、著作権のある作品を含むトレーニングデータの一部を容易に再現できることが示されている。
これは、欧州AI法と同様に、既存の著作権法に違反している可能性があるため、解決すべき重要な問題である。
論文 参考訳(メタデータ) (2024-05-28T18:01:52Z) - ©Plug-in Authorization for Human Content Copyright Protection in Text-to-Image Model [71.47762442337948]
最先端のモデルは、オリジナルクリエーターを信用せずに高品質なコンテンツを作成する。
本稿では,3つの操作 – 追加,抽出,組み合わせ – を導入した著作権プラグイン認証フレームワークを提案する。
抽出により、クリエーターは侵害モデルから著作権を回復することができ、組み合わせることでユーザーは異なる著作権プラグインをマージすることができる。
論文 参考訳(メタデータ) (2024-04-18T07:48:00Z) - Copyright Protection in Generative AI: A Technical Perspective [58.84343394349887]
ジェネレーティブAIは近年急速に進歩し、テキスト、画像、オーディオ、コードなどの合成コンテンツを作成する能力を拡大している。
これらのディープ・ジェネレーティブ・モデル(DGM)が生成したコンテンツの忠実さと信頼性が、著作権の重大な懸念を引き起こしている。
この研究は、技術的観点から著作権保護の包括的概要を提供することで、この問題を深く掘り下げている。
論文 参考訳(メタデータ) (2024-02-04T04:00:33Z) - A Dataset and Benchmark for Copyright Infringement Unlearning from Text-to-Image Diffusion Models [52.49582606341111]
著作権法は、クリエイティブ作品を再生、配布、収益化する排他的権利をクリエイターに与えている。
テキスト・ツー・イメージ・ジェネレーションの最近の進歩は、著作権の執行に重大な課題をもたらしている。
CLIP、ChatGPT、拡散モデルを調和させてデータセットをキュレートする新しいパイプラインを導入する。
論文 参考訳(メタデータ) (2024-01-04T11:14:01Z) - Are You Copying My Model? Protecting the Copyright of Large Language
Models for EaaS via Backdoor Watermark [58.60940048748815]
企業は大規模な言語モデル(LLM)に基づいたEmbeddding as a Service(E)の提供を開始した。
Eはモデル抽出攻撃に弱いため、LLMの所有者に重大な損失をもたらす可能性がある。
埋め込みにバックドアを埋め込むEmbMarkerという埋め込み透かし手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T08:28:54Z) - Whose Text Is It Anyway? Exploring BigCode, Intellectual Property, and
Ethics [1.933681537640272]
本稿では,大規模言語モデル(LLM)の学習に用いるオープンデータセットの著作権権について検討する。
我々の論文は、オープンデータセットでトレーニングされたLCMは、どのようにして使用済みデータの著作権上の利益を回避できるのか、と問う。
論文 参考訳(メタデータ) (2023-04-06T03:09:26Z) - InvBERT: Text Reconstruction from Contextualized Embeddings used for
Derived Text Formats of Literary Works [1.6058099298620423]
Digital Humanities and Computational Literary Studiesは文献調査にテキストマイニング手法を適用している。
著作権の制限により、関連するデジタル化された文学作品の入手は制限されている。
BERTを逆転しようとする試みは、エンコーダのパーツをコンテキスト化された埋め込みと共に公開することが重要であることを示唆している。
論文 参考訳(メタデータ) (2021-09-21T11:35:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。