論文の概要: Whose Text Is It Anyway? Exploring BigCode, Intellectual Property, and
Ethics
- arxiv url: http://arxiv.org/abs/2304.02839v1
- Date: Thu, 6 Apr 2023 03:09:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 15:23:27.698299
- Title: Whose Text Is It Anyway? Exploring BigCode, Intellectual Property, and
Ethics
- Title(参考訳): 誰のテキストですか?
bigcode、知的財産、倫理を探求する
- Authors: Madiha Zahrah Choksi, and David Goedicke
- Abstract要約: 本稿では,大規模言語モデル(LLM)の学習に用いるオープンデータセットの著作権権について検討する。
我々の論文は、オープンデータセットでトレーニングされたLCMは、どのようにして使用済みデータの著作権上の利益を回避できるのか、と問う。
- 参考スコア(独自算出の注目度): 1.933681537640272
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Intelligent or generative writing tools rely on large language models that
recognize, summarize, translate, and predict content. This position paper
probes the copyright interests of open data sets used to train large language
models (LLMs). Our paper asks, how do LLMs trained on open data sets circumvent
the copyright interests of the used data? We start by defining software
copyright and tracing its history. We rely on GitHub Copilot as a modern case
study challenging software copyright. Our conclusion outlines obstacles that
generative writing assistants create for copyright, and offers a practical road
map for copyright analysis for developers, software law experts, and general
users to consider in the context of intelligent LLM-powered writing tools.
- Abstract(参考訳): 知的または生成的記述ツールは、コンテンツを認識し、要約し、翻訳し、予測する大きな言語モデルに依存している。
本稿では,大規模言語モデル(LLM)の学習に用いるオープンデータセットの著作権権について検討する。
オープンデータセット上でのllmのトレーニングは,使用データの著作権上の利益を回避できるのでしょうか?
ソフトウェア著作権の定義から始まり、その歴史をたどる。
ソフトウェア著作権に挑戦する現代のケーススタディとしてgithub copilotを使用しています。
本稿では,ジェネレーティブ・ライティング・アシスタントが著作権のために作成する障害について概説し,開発者,ソフトウェア法の専門家,一般ユーザに対して,知的LLMベースのライティング・ツールの文脈で考慮すべき著作権分析の実践的なロードマップを提供する。
関連論文リスト
- Copyright Protection in Generative AI: A Technical Perspective [38.83972444347874]
ジェネレーティブAIは近年急速に進歩し、テキスト、画像、オーディオ、コードなどの合成コンテンツを作成する能力を拡大している。
これらのディープ・ジェネレーティブ・モデル(DGM)が生成したコンテンツの忠実さと信頼性が、著作権の重大な懸念を引き起こしている。
この研究は、技術的観点から著作権保護の包括的概要を提供することで、この問題を深く掘り下げている。
論文 参考訳(メタデータ) (2024-02-04T04:00:33Z) - Instructional Fingerprinting of Large Language Models [61.16480641024264]
本稿では,非常に軽量なインストラクションチューニングの一形態として,Large Language Model (LLM) の指紋認証に関する実験的検討を行う。
11個の LLM 実験の結果,このアプローチは軽量であり,モデルの正常な挙動には影響しないことがわかった。
また、パブリッシャーの誇張を防ぎ、指紋の推測やパラメータ効率のトレーニングに対する堅牢性を維持し、MITライセンスのような多段階の指紋認証をサポートする。
論文 参考訳(メタデータ) (2024-01-21T09:51:45Z) - Digger: Detecting Copyright Content Mis-usage in Large Language Model
Training [23.99093718956372]
本稿では,Large Language Models (LLMs) のトレーニングデータセット内で著作権のある書籍のコンテンツの存在を検知し,評価するためのフレームワークを提案する。
このフレームワークはまた、各コンテンツサンプルのインクルージョンの可能性の信頼度推定も提供する。
論文 参考訳(メタデータ) (2024-01-01T06:04:52Z) - LILO: Learning Interpretable Libraries by Compressing and Documenting Code [72.90003911433905]
LILOは、反復的に合成、圧縮、文書化を行う、ニューロシンボリックなフレームワークである。
LILOは、LLM誘導プログラム合成と、Stitchから自動化された最近のアルゴリズムの進歩を組み合わせたものである。
LILOのシンセサイザーが学習した抽象化を解釈し、デプロイするのを手助けすることで、AutoDocがパフォーマンスを向上させることが分かりました。
論文 参考訳(メタデータ) (2023-10-30T17:55:02Z) - Copyright Violations and Large Language Models [10.251605253237491]
本研究は,動詞の暗記のレンズを通して,著作権侵害や大規模言語モデルの問題を探究する。
一般的な書籍のコレクションやコーディング問題に対して,さまざまな言語モデルを用いて実験を行った。
本研究は,著作権規制の遵守を確実にするために,自然言語処理のさらなる検討の必要性と今後の発展への潜在的影響を強調した。
論文 参考訳(メタデータ) (2023-10-20T19:14:59Z) - WASA: WAtermark-based Source Attribution for Large Language
Model-Generated Data [60.759755177369364]
大言語モデル(LLM)は、ソースに関する情報を含む埋め込み透かしを持つ合成テキストを生成する。
本稿では,我々のアルゴリズム設計により鍵特性を満たすWAtermarking for Source Attribution (WASA)フレームワークを提案する。
我々のフレームワークは、効果的な情報源の属性とデータの出所を達成します。
論文 参考訳(メタデータ) (2023-10-01T12:02:57Z) - SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore [125.06066299987106]
推論中にこのリスクパフォーマンストレードオフを管理する新しい言語モデルであるSILOを提案する。
SILOは(1)オープンライセンスコーパス(OLC)上でパラメトリックLMをトレーニングすることで構築されます。
データストアへのアクセスはドメインのパフォーマンスを大幅に改善し、PileでトレーニングされたLMでパフォーマンスギャップの90%を閉じる。
論文 参考訳(メタデータ) (2023-08-08T17:58:15Z) - LLMDet: A Third Party Large Language Models Generated Text Detection
Tool [119.0952092533317]
大規模言語モデル(LLM)は、高品質な人間によるテキストに非常に近い。
既存の検出ツールは、機械が生成したテキストと人間によるテキストしか区別できない。
本稿では,モデル固有,セキュア,効率的,拡張可能な検出ツールであるLLMDetを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:45:16Z) - Are You Copying My Model? Protecting the Copyright of Large Language
Models for EaaS via Backdoor Watermark [58.60940048748815]
企業は大規模な言語モデル(LLM)に基づいたEmbeddding as a Service(E)の提供を開始した。
Eはモデル抽出攻撃に弱いため、LLMの所有者に重大な損失をもたらす可能性がある。
埋め込みにバックドアを埋め込むEmbMarkerという埋め込み透かし手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T08:28:54Z) - The (ab)use of Open Source Code to Train Large Language Models [0.8122270502556374]
記憶のセキュリティ、プライバシー、およびライセンスの意味について論じる。
LLMのトレーニングにコピーレフトコードを使うことが法的かつ倫理的なジレンマである理由を論じる。
論文 参考訳(メタデータ) (2023-02-27T11:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。