論文の概要: The KL3M Data Project: Copyright-Clean Training Resources for Large Language Models
- arxiv url: http://arxiv.org/abs/2504.07854v1
- Date: Thu, 10 Apr 2025 15:31:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 16:33:18.617859
- Title: The KL3M Data Project: Copyright-Clean Training Resources for Large Language Models
- Title(参考訳): KL3Mデータプロジェクト:大規模言語モデルのための著作権保護訓練リソース
- Authors: Michael J Bommarito II, Jillian Bommarito, Daniel Martin Katz,
- Abstract要約: KL3M Data Projectは、著作権や契約違反に関連するリスクを最小限に抑える、最大の総合的なトレーニングデータパイプラインを導入している。
このプロジェクトの基礎は、1億3200万以上のドキュメントと、厳格な著作権およびライセンスプロトコルを満たすために検証された16の異なるソースにまたがる数兆のトークンからなるコーパスである。
これらのリソースはすべて、CC-BY条項の下で、S3、Hugging Face、GitHubで無料で公開されている。
- 参考スコア(独自算出の注目度): 13.86942249917289
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Practically all large language models have been pre-trained on data that is subject to global uncertainty related to copyright infringement and breach of contract. This creates potential risk for users and developers due to this uncertain legal status. The KL3M Data Project directly confronts this critical issue by introducing the largest comprehensive training data pipeline that minimizes risks related to copyright or breach of contract. The foundation of this project is a corpus of over 132 million documents and trillions of tokens spanning 16 different sources that have been verified to meet the strict copyright and licensing protocol detailed herein. We are releasing the entire pipeline, including 1) the source code to acquire and process these documents, 2) the original document formats with associated provenance and metadata, 3) extracted content in a standardized format, 4) pre-tokenized representations of the documents, and 5) various mid- and post-train resources such as question-answer, summarization, conversion, drafting, classification, prediction, and conversational data. All of these resources are freely available to the public on S3, Hugging Face, and GitHub under CC-BY terms. We are committed to continuing this project in furtherance of a more ethical, legal, and sustainable approach to the development and use of AI models.
- Abstract(参考訳): 実際には、すべての大きな言語モデルは、著作権侵害や契約違反に関連する世界的な不確実性にさらされるデータに基づいて事前訓練されている。
これにより、この不確実な法的地位のため、ユーザと開発者にとって潜在的なリスクが生じる。
KL3M Data Projectは、著作権や契約違反に関するリスクを最小限に抑える、最大の総合的なトレーニングデータパイプラインを導入することで、この重要な問題に直接直面している。
このプロジェクトの基礎は、1億3200万以上のドキュメントと、ここで詳述された厳格な著作権およびライセンスプロトコルを満たすために検証された16の異なるソースにまたがる数兆のトークンからなるコーパスである。
パイプライン全体をリリースしています。
1)これらの書類の取得及び処理のソースコード
2)関連資料及びメタデータを添付した原文書形式
3) 標準フォーマットで抽出された内容
4) 書類の事前登録表示及び
5) 質問応答,要約,変換,ドラフト,分類,予測,会話データなど,様々な中・後のリソース。
これらのリソースはすべて、CC-BY条項の下で、S3、Hugging Face、GitHubで無料で公開されている。
私たちは、AIモデルの開発と使用に対する、より倫理的で合法的で持続可能なアプローチをさらに進めて、このプロジェクトを継続することを約束しています。
関連論文リスト
- Who Owns the Output? Bridging Law and Technology in LLMs Attribution [0.0]
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、コンテンツ生成を変革した。
生成AIモデルが提供する機会は無限であり、コンテンツを生成するのに必要な時間を劇的に削減している。
しかし、生成したコンテンツの複雑さと難解なトレーサビリティを考慮すると、これらのツールを使用することで、AI生成したコンテンツの帰属が困難になる。
論文 参考訳(メタデータ) (2025-03-29T18:08:04Z) - TROVE: A Challenge for Fine-Grained Text Provenance via Source Sentence Tracing and Relationship Classification [32.958143806547234]
医療、法律、ニュースなどの高度な領域では、コンテンツがどこでどのように作られるかを理解することが不可欠である。
テキストpROVEnance(テキストpROVEnance)チャレンジを導入し、ターゲットテキストの各文を特定のソース文にトレースする。
論文 参考訳(メタデータ) (2025-03-19T15:09:39Z) - Evaluating Copyright Takedown Methods for Language Models [100.38129820325497]
言語モデル(LM)は、潜在的に著作権のある資料を含む様々なデータに対する広範な訓練からその能力を引き出す。
本稿では,LMの著作権削除の可能性と副作用を初めて評価する。
システムプロンプトの追加、デコード時間フィルタリングの介入、未学習アプローチなど、いくつかの戦略を検討する。
論文 参考訳(メタデータ) (2024-06-26T18:09:46Z) - An Exploratory Investigation into Code License Infringements in Large Language Model Training Datasets [13.134215997081157]
我々は、この分野における現在のトレンドと、大規模言語モデルのトレーニングにコードを統合することの重要性を評価する。
我々は、これらのモデルが将来法的問題のリスクを伴わずに、これらのモデルでトレーニングできるかどうかを、公開データセットで検証する。
論文 参考訳(メタデータ) (2024-03-22T14:23:21Z) - Copyright Protection in Generative AI: A Technical Perspective [58.84343394349887]
ジェネレーティブAIは近年急速に進歩し、テキスト、画像、オーディオ、コードなどの合成コンテンツを作成する能力を拡大している。
これらのディープ・ジェネレーティブ・モデル(DGM)が生成したコンテンツの忠実さと信頼性が、著作権の重大な懸念を引き起こしている。
この研究は、技術的観点から著作権保護の包括的概要を提供することで、この問題を深く掘り下げている。
論文 参考訳(メタデータ) (2024-02-04T04:00:33Z) - A Dataset and Benchmark for Copyright Infringement Unlearning from Text-to-Image Diffusion Models [52.49582606341111]
著作権法は、クリエイティブ作品を再生、配布、収益化する排他的権利をクリエイターに与えている。
テキスト・ツー・イメージ・ジェネレーションの最近の進歩は、著作権の執行に重大な課題をもたらしている。
CLIP、ChatGPT、拡散モデルを調和させてデータセットをキュレートする新しいパイプラインを導入する。
論文 参考訳(メタデータ) (2024-01-04T11:14:01Z) - Digger: Detecting Copyright Content Mis-usage in Large Language Model
Training [23.99093718956372]
本稿では,Large Language Models (LLMs) のトレーニングデータセット内で著作権のある書籍のコンテンツの存在を検知し,評価するためのフレームワークを提案する。
このフレームワークはまた、各コンテンツサンプルのインクルージョンの可能性の信頼度推定も提供する。
論文 参考訳(メタデータ) (2024-01-01T06:04:52Z) - Copyright Violations and Large Language Models [10.251605253237491]
本研究は,動詞の暗記のレンズを通して,著作権侵害や大規模言語モデルの問題を探究する。
一般的な書籍のコレクションやコーディング問題に対して,さまざまな言語モデルを用いて実験を行った。
本研究は,著作権規制の遵守を確実にするために,自然言語処理のさらなる検討の必要性と今後の発展への潜在的影響を強調した。
論文 参考訳(メタデータ) (2023-10-20T19:14:59Z) - Source Attribution for Large Language Model-Generated Data [57.85840382230037]
合成テキストの生成に寄与したデータプロバイダを特定することで、ソース属性を実行できることが不可欠である。
我々はこの問題を透かしによって取り組めることを示した。
本稿では,アルゴリズム設計により,これらの重要な特性を満足する情報源属性フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-01T12:02:57Z) - Foundation Models and Fair Use [96.04664748698103]
米国や他の国では、著作権のあるコンテンツは、公正な使用原理のために責任を負わずに基礎モデルを構築するために使われることがある。
本研究では,著作権コンテンツに基づく基礎モデルの開発と展開の潜在的なリスクについて調査する。
基礎モデルが公正な使用と一致し続けるのに役立つ技術的緩和について論じる。
論文 参考訳(メタデータ) (2023-03-28T03:58:40Z) - The Problem of Zombie Datasets:A Framework For Deprecating Datasets [55.878249096379804]
我々は、ImageNet、8000 Million Tiny Images、MS-Celeb-1M、Duke MTMC、Brainwash、HRT Transgenderなど、いくつかの著名なデータセットの公開後処理について検討する。
本稿では,リスクの考慮,影響の緩和,アピール機構,タイムライン,非推奨プロトコル,公開チェックなどを含むデータセットの非推奨化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-18T20:13:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。