論文の概要: An Exploratory Investigation into Code License Infringements in Large Language Model Training Datasets
- arxiv url: http://arxiv.org/abs/2403.15230v1
- Date: Fri, 22 Mar 2024 14:23:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 17:09:34.216115
- Title: An Exploratory Investigation into Code License Infringements in Large Language Model Training Datasets
- Title(参考訳): 大規模言語モデル学習データセットにおけるライセンス侵害の探索的研究
- Authors: Jonathan Katzy, Răzvan-Mihai Popescu, Arie van Deursen, Maliheh Izadi,
- Abstract要約: 我々は、この分野における現在のトレンドと、大規模言語モデルのトレーニングにコードを統合することの重要性を評価する。
我々は、これらのモデルが将来法的問題のリスクを伴わずに、これらのモデルでトレーニングできるかどうかを、公開データセットで検証する。
- 参考スコア(独自算出の注目度): 13.134215997081157
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Does the training of large language models potentially infringe upon code licenses? Furthermore, are there any datasets available that can be safely used for training these models without violating such licenses? In our study, we assess the current trends in the field and the importance of incorporating code into the training of large language models. Additionally, we examine publicly available datasets to see whether these models can be trained on them without the risk of legal issues in the future. To accomplish this, we compiled a list of 53 large language models trained on file-level code. We then extracted their datasets and analyzed how much they overlap with a dataset we created, consisting exclusively of strong copyleft code. Our analysis revealed that every dataset we examined contained license inconsistencies, despite being selected based on their associated repository licenses. We analyzed a total of 514 million code files, discovering 38 million exact duplicates present in our strong copyleft dataset. Additionally, we examined 171 million file-leading comments, identifying 16 million with strong copyleft licenses and another 11 million comments that discouraged copying without explicitly mentioning a license. Based on the findings of our study, which highlights the pervasive issue of license inconsistencies in large language models trained on code, our recommendation for both researchers and the community is to prioritize the development and adoption of best practices for dataset creation and management.
- Abstract(参考訳): 大きな言語モデルのトレーニングは、コードライセンスを侵害する可能性があるか?
さらに、そのようなライセンスに違反することなく、これらのモデルのトレーニングに安全に使用できるデータセットはありますか?
本研究では,この分野における現状と,大規模言語モデルの学習にコードを導入することの重要性を評価する。
さらに、これらのモデルが将来法的問題を起こすことなくトレーニングできるかどうかを、公開データセットで検証する。
これを実現するために、ファイルレベルのコードでトレーニングされた53の大規模言語モデルのリストをコンパイルした。
その後、データセットを抽出し、強力なコピーレフトコードのみで構成されたデータセットと重複する頻度を分析しました。
分析の結果,すべてのデータセットには,関連するリポジトリライセンスに基づいて選択されたにもかかわらず,ライセンスの不整合が含まれていることがわかった。
私たちは5億1400万のコードファイルを分析し、強いコピーレフトデータセットに3800万の正確な複製を発見しました。
さらに、我々は1億7100万のファイル主導のコメントを調べ、強力なコピーレフトライセンスを持つ1600万のコメントと、ライセンスを明示的に言及することなくコピーを禁止した1100万のコメントを特定した。
コードでトレーニングされた大規模言語モデルにおいて,ライセンスの不整合が広範囲に及んでいることを踏まえ,研究者とコミュニティの双方に対して,データセット作成と管理のためのベストプラクティスの開発と導入を優先することが推奨されている。
関連論文リスト
- OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - StarCoder 2 and The Stack v2: The Next Generation [105.93298676368798]
私たちは3.3から4.3兆のトークンで3B、7B、15BパラメータでStarCoder2モデルをトレーニングします。
我々は、それらをCode LLMベンチマークの包括的なセットで徹底的に評価する。
私たちの大きなモデルであるStarCoder2-15Bは、同等の大きさの他のモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-02-29T13:53:35Z) - Are LLMs Capable of Data-based Statistical and Causal Reasoning? Benchmarking Advanced Quantitative Reasoning with Data [89.2410799619405]
実世界のデータを用いた統計的および因果推論において,大規模言語モデルの能力を評価するために,データベンチマークを用いた定量的推論を導入する。
このベンチマークは、教科書、オンライン学習教材、学術論文のデータシートを伴う411の質問のデータセットで構成されている。
データとテキストに対するモデルの量的推論能力を比較するために、ベンチマークを290のテキストのみの質問、すなわちQRTextで強化する。
論文 参考訳(メタデータ) (2024-02-27T16:15:03Z) - Trained Without My Consent: Detecting Code Inclusion In Language Models Trained on Code [13.135962181354465]
コード監査は、開発済みのコードが標準、規制、著作権保護に準拠していることを保証する。
ソフトウェア開発プロセスにおけるコーディングアシスタントとしての最近のLarge Language Models(LLM)の出現は、コード監査に新たな課題をもたらしている。
LLMのトレーニングデータセットにコードを含むことを検出するモデルに依存しない、解釈可能な方法であるTraWiCを提案する。
論文 参考訳(メタデータ) (2024-02-14T16:41:35Z) - Traces of Memorisation in Large Language Models for Code [16.125924759649106]
コードのための大規模な言語モデルは、一般にインターネットから取り除かれた大量のソースコードコーパスで訓練される。
記憶の速度を、自然言語で訓練された大きな言語モデルと比較する。
コードのための大きな言語モデルは、自然言語のようなデータ抽出攻撃に弱いことが分かりました。
論文 参考訳(メタデータ) (2023-12-18T19:12:58Z) - The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing
& Attribution in AI [41.32981860191232]
法的および機械学習の専門家は、1800以上のテキストデータセットを体系的に監査し、追跡する。
私たちのランドスケープ分析は、コンポジションの急激な分断と、商業的にオープンなデータセットとクローズドなデータセットの焦点を浮き彫りにしています。
広く使用されているデータセットホスティングサイトでは、ライセンスが70%以上、エラー率が50%以上である。
論文 参考訳(メタデータ) (2023-10-25T17:20:26Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - The Vault: A Comprehensive Multilingual Dataset for Advancing Code
Understanding and Generation [5.2510537676167335]
複数のプログラミング言語における高品質なコードテキストペアのデータセットであるThe Vaultを提示する。
我々の評価では、The Vault上でコード大言語モデルを微調整すると、このようなモデルはCodeSearchNetのような他のデータセットでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2023-05-09T09:35:03Z) - The (ab)use of Open Source Code to Train Large Language Models [0.8122270502556374]
記憶のセキュリティ、プライバシー、およびライセンスの意味について論じる。
LLMのトレーニングにコピーレフトコードを使うことが法的かつ倫理的なジレンマである理由を論じる。
論文 参考訳(メタデータ) (2023-02-27T11:34:53Z) - Deduplicating Training Data Makes Language Models Better [50.22588162039083]
既存の言語モデリングデータセットには、多くのほぼ重複した例と長い反復が含まれている。
これらのデータセットでトレーニングされた言語モデルの未学習出力の1%以上が、トレーニングデータから冗長にコピーされている。
トレーニングデータセットを分離する2つのツールを開発しています。
論文 参考訳(メタデータ) (2021-07-14T06:06:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。