論文の概要: The (Ab)use of Open Source Code to Train Large Language Models
- arxiv url: http://arxiv.org/abs/2302.13681v1
- Date: Mon, 27 Feb 2023 11:34:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 15:56:47.919517
- Title: The (Ab)use of Open Source Code to Train Large Language Models
- Title(参考訳): Ab)大規模言語モデルの学習におけるオープンソースコードの利用
- Authors: Ali Al-Kaswan and Maliheh Izadi
- Abstract要約: 記憶のセキュリティ、プライバシー、およびライセンスの意味について論じる。
LLMのトレーニングにコピーレフトコードを使うことが法的かつ倫理的なジレンマである理由を論じる。
- 参考スコア(独自算出の注目度): 0.8122270502556374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, Large Language Models (LLMs) have gained significant
popularity due to their ability to generate human-like text and their potential
applications in various fields, such as Software Engineering. LLMs for Code are
commonly trained on large unsanitized corpora of source code scraped from the
Internet. The content of these datasets is memorized and emitted by the models,
often in a verbatim manner. In this work, we will discuss the security,
privacy, and licensing implications of memorization. We argue why the use of
copyleft code to train LLMs is a legal and ethical dilemma. Finally, we provide
four actionable recommendations to address this issue.
- Abstract(参考訳): 近年,Large Language Models (LLM) は,ヒューマンライクなテキストを生成する能力と,ソフトウェア工学などの様々な分野における潜在的な応用能力から,大きな人気を集めている。
LLM for Codeは一般にインターネットから取り除かれた大規模な無害なソースコードコーパスで訓練されている。
これらのデータセットの内容はモデルによって記憶され、しばしば口頭で出力される。
本研究では,記憶のセキュリティ,プライバシ,ライセンスの意義について論じる。
LLMのトレーニングにコピーレフトコードを使うことが法的かつ倫理的なジレンマである理由を論じる。
最後に、この問題に対処するために4つのアクション可能なレコメンデーションを提供します。
関連論文リスト
- Amharic LLaMA and LLaVA: Multimodal LLMs for Low Resource Languages [0.0]
大規模言語モデル(LLM)は、自然言語処理タスクにおいて驚くほどの習熟度を示している。
LLMは、トレーニングデータが少ないため、低リソースの言語でよく機能するのに苦労することが多い。
本研究では,世界5000万人以上の人々が話す言語であるAmharicを話すためのLLaMA-2の訓練について検討する。
論文 参考訳(メタデータ) (2024-03-11T01:04:36Z) - IRCoder: Intermediate Representations Make Language Models Robust
Multilingual Code Generators [55.40713784611711]
本研究では,コンパイラ中間表現を活用することで,Code-LMの多言語機能を改善する可能性について検討する。
まず,約400万のソースコードファイルからなる並列データセットであるSLTransをコンパイルする。
次に、SLTransにおける因果言語モデリングトレーニングを継続して実施し、Code-LMはIR言語を学習せざるを得なかった。
IRCoderと呼ばれる結果のモデルは、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。
論文 参考訳(メタデータ) (2024-03-06T17:52:08Z) - Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文 参考訳(メタデータ) (2024-02-06T20:38:46Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - SoK: Memorization in General-Purpose Large Language Models [25.448127387943053]
大規模言語モデル(LLM)は、無数のアプリケーションが開発中で、目覚ましいペースで進んでいる。
LLMはトレーニングデータの短い秘密を記憶できるだけでなく、さまざまな方法でテキストで表現できる事実や書体スタイルといった概念を記憶することもできる。
本稿では,文章,事実,アイデア,アルゴリズム,書式,分布特性,アライメント目標を網羅したLLMにおける記憶のための分類法を提案する。
論文 参考訳(メタデータ) (2023-10-24T14:25:53Z) - CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model [58.127534002232096]
本稿では,オープンソースの事前学習型LLMであるCodeFuse-13Bを紹介する。
英語と中国語の両方のプロンプトによるコード関連のタスク用に特別に設計されている。
CodeFuseは、高品質な事前トレーニングデータセットを利用することで、その効果を達成する。
論文 参考訳(メタデータ) (2023-10-10T02:38:44Z) - On the Safety of Open-Sourced Large Language Models: Does Alignment
Really Prevent Them From Being Misused? [49.99955642001019]
オープンソースでアライメントされた大きな言語モデルは、望ましくないコンテンツを生成するために簡単に誤解される可能性があることを示す。
我々のキーとなる考え方は、オープンソースLLMの生成プロセスを直接操作して、望ましくないコンテンツを生成するのを誤解することです。
論文 参考訳(メタデータ) (2023-10-02T19:22:01Z) - Calculating Originality of LLM Assisted Source Code [0.0]
本稿では,学生がソースコードを書く際の本来の取り組み(およびLLMの貢献)を決定するニューラルネットワークベースのツールを提案する。
我々のツールは、コルモゴロフ複雑性のような最小記述長測度によって動機付けられている。
論文 参考訳(メタデータ) (2023-07-10T11:30:46Z) - WizardCoder: Empowering Code Large Language Models with Evol-Instruct [67.24653703564492]
WezardCoderは、複雑な命令の微調整でコードLLMをパワーアップする。
私たちのモデルは、他のすべてのオープンソースコードLLMをかなり上回ります。
論文 参考訳(メタデータ) (2023-06-14T15:18:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。