論文の概要: Copyright Violations and Large Language Models
- arxiv url: http://arxiv.org/abs/2310.13771v1
- Date: Fri, 20 Oct 2023 19:14:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 05:28:00.111613
- Title: Copyright Violations and Large Language Models
- Title(参考訳): 著作権侵害と大規模言語モデル
- Authors: Antonia Karamolegkou, Jiaang Li, Li Zhou, Anders S{\o}gaard
- Abstract要約: 本研究は,動詞の暗記のレンズを通して,著作権侵害や大規模言語モデルの問題を探究する。
一般的な書籍のコレクションやコーディング問題に対して,さまざまな言語モデルを用いて実験を行った。
本研究は,著作権規制の遵守を確実にするために,自然言語処理のさらなる検討の必要性と今後の発展への潜在的影響を強調した。
- 参考スコア(独自算出の注目度): 10.251605253237491
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models may memorize more than just facts, including entire chunks of
texts seen during training. Fair use exemptions to copyright laws typically
allow for limited use of copyrighted material without permission from the
copyright holder, but typically for extraction of information from copyrighted
materials, rather than {\em verbatim} reproduction. This work explores the
issue of copyright violations and large language models through the lens of
verbatim memorization, focusing on possible redistribution of copyrighted text.
We present experiments with a range of language models over a collection of
popular books and coding problems, providing a conservative characterization of
the extent to which language models can redistribute these materials. Overall,
this research highlights the need for further examination and the potential
impact on future developments in natural language processing to ensure
adherence to copyright regulations. Code is at
\url{https://github.com/coastalcph/CopyrightLLMs}.
- Abstract(参考訳): 言語モデルは、トレーニング中に見られるテキスト全体を含む、単なる事実以上のことを記憶することができる。
著作権法に対する公正な使用除外は、典型的には、著作権所有者の許可なく著作権物質の使用を制限するが、典型的には、複製ではなく、著作権物質から情報を抽出する。
本研究は,著作権文書の再配布に焦点をあて,冗長記憶のレンズを通して,著作権侵害や大規模言語モデルの問題を探る。
そこで,本研究では,人気書籍の集成やコーディング問題に対する言語モデルを用いた実験を行い,言語モデルがそれらの資料を再分配できる程度を保守的に評価する。
本研究は,著作権規制の遵守を確実にするために,自然言語処理のさらなる検討の必要性と今後の発展への潜在的影響を強調した。
コードは \url{https://github.com/coastalcph/CopyrightLLMs} にある。
関連論文リスト
- WatME: Towards Lossless Watermarking Through Lexical Redundancy [61.55924872561569]
相互排他型透かし(WatME)という新しいアプローチを導入する。
WatMEは、言語モデルの復号過程において利用可能な語彙の使用を動的に最適化する。
本稿では,WatMEが大規模言語モデルのテキスト生成能力を大幅に維持していることを示す理論的解析と実証的証拠を示す。
論文 参考訳(メタデータ) (2023-11-16T11:58:31Z) - On the Safety of Open-Sourced Large Language Models: Does Alignment
Really Prevent Them From Being Misused? [49.99955642001019]
オープンソースでアライメントされた大きな言語モデルは、望ましくないコンテンツを生成するために簡単に誤解される可能性があることを示す。
我々のキーとなる考え方は、オープンソースLLMの生成プロセスを直接操作して、望ましくないコンテンツを生成するのを誤解することです。
論文 参考訳(メタデータ) (2023-10-02T19:22:01Z) - On Copyright Risks of Text-to-Image Diffusion Models [31.982360758956034]
拡散モデルは、テキストプロンプト(T2I)生成と呼ばれるタスクである、テキストプロンプトからのイメージの作成において優れている。
近年,直接的かつ著作権のあるプロンプトを用いた拡散モデルの著作権行動に関する研究が行われている。
私たちの研究は、間接的なプロンプトでさえ著作権問題を引き起こすような、より微妙な形態の侵害を調べることで、これを拡張しています。
論文 参考訳(メタデータ) (2023-09-15T01:34:02Z) - Lip Reading for Low-resource Languages by Learning and Combining General
Speech Knowledge and Language-specific Knowledge [57.38948190611797]
本稿では,特に低リソース言語を対象とした新しい唇読解フレームワークを提案する。
低リソース言語は、そのモデルを訓練するのに十分なビデオテキストペアデータを持っていないため、低リソース言語のための唇読解モデルを開発するのは難しいと考えられている。
論文 参考訳(メタデータ) (2023-08-18T05:19:03Z) - SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore [125.06066299987106]
推論中にこのリスクパフォーマンストレードオフを管理する新しい言語モデルであるSILOを提案する。
SILOは(1)オープンライセンスコーパス(OLC)上でパラメトリックLMをトレーニングすることで構築されます。
データストアへのアクセスはドメインのパフォーマンスを大幅に改善し、PileでトレーニングされたLMでパフォーマンスギャップの90%を閉じる。
論文 参考訳(メタデータ) (2023-08-08T17:58:15Z) - Can Copyright be Reduced to Privacy? [24.28377873526068]
プライバシーと著作権の間には、見落としてはいけない根本的な違いがある、と我々は主張する。
アルゴリズムの安定性が著作権侵害の標準として採用されれば、著作権法を意図した目的を損なう可能性がある。
論文 参考訳(メタデータ) (2023-05-24T07:22:41Z) - Are You Copying My Model? Protecting the Copyright of Large Language
Models for EaaS via Backdoor Watermark [58.60940048748815]
企業は大規模な言語モデル(LLM)に基づいたEmbeddding as a Service(E)の提供を開始した。
Eはモデル抽出攻撃に弱いため、LLMの所有者に重大な損失をもたらす可能性がある。
埋め込みにバックドアを埋め込むEmbMarkerという埋め込み透かし手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T08:28:54Z) - Whose Text Is It Anyway? Exploring BigCode, Intellectual Property, and
Ethics [1.933681537640272]
本稿では,大規模言語モデル(LLM)の学習に用いるオープンデータセットの著作権権について検討する。
我々の論文は、オープンデータセットでトレーニングされたLCMは、どのようにして使用済みデータの著作権上の利益を回避できるのか、と問う。
論文 参考訳(メタデータ) (2023-04-06T03:09:26Z) - Foundation Models and Fair Use [96.04664748698103]
米国や他の国では、著作権のあるコンテンツは、公正な使用原理のために責任を負わずに基礎モデルを構築するために使われることがある。
本研究では,著作権コンテンツに基づく基礎モデルの開発と展開の潜在的なリスクについて調査する。
基礎モデルが公正な使用と一致し続けるのに役立つ技術的緩和について論じる。
論文 参考訳(メタデータ) (2023-03-28T03:58:40Z) - Do Language Models Plagiarize? [22.02731537718498]
人工テキストを生成する際に,言語モデルが記憶するか否かを検討するとともに,学習サンプルをプラジャライズする。
以上の結果から,特にGPT-2では,難読化の有無にかかわらず,トレーニングコーパスから特定のテキストを再利用することが示唆された。
私たちの研究は、将来のニューラルネットワークモデルの研究が、トレーニングデータセットを盗用するモデルを避けるために、予防措置を講じるべきであることを示唆している。
論文 参考訳(メタデータ) (2022-03-15T03:11:11Z) - InvBERT: Text Reconstruction from Contextualized Embeddings used for
Derived Text Formats of Literary Works [1.6058099298620423]
Digital Humanities and Computational Literary Studiesは文献調査にテキストマイニング手法を適用している。
著作権の制限により、関連するデジタル化された文学作品の入手は制限されている。
BERTを逆転しようとする試みは、エンコーダのパーツをコンテキスト化された埋め込みと共に公開することが重要であることを示唆している。
論文 参考訳(メタデータ) (2021-09-21T11:35:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。