論文の概要: The (Ab)use of Open Source Code to Train Large Language Models
- arxiv url: http://arxiv.org/abs/2302.13681v1
- Date: Mon, 27 Feb 2023 11:34:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 15:56:47.919517
- Title: The (Ab)use of Open Source Code to Train Large Language Models
- Title(参考訳): Ab)大規模言語モデルの学習におけるオープンソースコードの利用
- Authors: Ali Al-Kaswan and Maliheh Izadi
- Abstract要約: 記憶のセキュリティ、プライバシー、およびライセンスの意味について論じる。
LLMのトレーニングにコピーレフトコードを使うことが法的かつ倫理的なジレンマである理由を論じる。
- 参考スコア(独自算出の注目度): 0.8122270502556374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, Large Language Models (LLMs) have gained significant
popularity due to their ability to generate human-like text and their potential
applications in various fields, such as Software Engineering. LLMs for Code are
commonly trained on large unsanitized corpora of source code scraped from the
Internet. The content of these datasets is memorized and emitted by the models,
often in a verbatim manner. In this work, we will discuss the security,
privacy, and licensing implications of memorization. We argue why the use of
copyleft code to train LLMs is a legal and ethical dilemma. Finally, we provide
four actionable recommendations to address this issue.
- Abstract(参考訳): 近年,Large Language Models (LLM) は,ヒューマンライクなテキストを生成する能力と,ソフトウェア工学などの様々な分野における潜在的な応用能力から,大きな人気を集めている。
LLM for Codeは一般にインターネットから取り除かれた大規模な無害なソースコードコーパスで訓練されている。
これらのデータセットの内容はモデルによって記憶され、しばしば口頭で出力される。
本研究では,記憶のセキュリティ,プライバシ,ライセンスの意義について論じる。
LLMのトレーニングにコピーレフトコードを使うことが法的かつ倫理的なジレンマである理由を論じる。
最後に、この問題に対処するために4つのアクション可能なレコメンデーションを提供します。
関連論文リスト
- A Survey on Large Language Models for Code Generation [9.555952109820392]
大規模言語モデル(LLM)は、様々なコード関連のタスクで顕著な進歩を遂げています。
本調査は、総合的かつ最新の文献レビューを提供することで、学界と実践的発展のギャップを埋めることを目的としている。
論文 参考訳(メタデータ) (2024-06-01T17:48:15Z) - Assessing LLMs in Malicious Code Deobfuscation of Real-world Malware Campaigns [7.776434991976473]
本稿では,大規模言語モデル(LLM)の難読化機能について検討する。
我々は,悪名高いEmotetマルウェアキャンペーンで使用されている現実の悪意のあるスクリプトを用いた4つのLSMを評価した。
以上の結果から,まだ完全には正確ではないものの,これらのペイロードを効率よく除去できるLCMが存在することが示唆された。
論文 参考訳(メタデータ) (2024-04-30T17:06:27Z) - CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。
CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保存するために追加情報を埋め込む。
5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文 参考訳(メタデータ) (2024-04-24T04:25:04Z) - Amharic LLaMA and LLaVA: Multimodal LLMs for Low Resource Languages [0.0]
大規模言語モデル(LLM)は、自然言語処理タスクにおいて驚くほどの習熟度を示している。
LLMは、トレーニングデータが少ないため、低リソースの言語でよく機能するのに苦労することが多い。
本研究では,世界5000万人以上の人々が話す言語であるAmharicを話すためのLLaMA-2の訓練について検討する。
論文 参考訳(メタデータ) (2024-03-11T01:04:36Z) - Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文 参考訳(メタデータ) (2024-02-06T20:38:46Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model [58.127534002232096]
本稿では,オープンソースの事前学習型LLMであるCodeFuse-13Bを紹介する。
英語と中国語の両方のプロンプトによるコード関連のタスク用に特別に設計されている。
CodeFuseは、高品質な事前トレーニングデータセットを利用することで、その効果を達成する。
論文 参考訳(メタデータ) (2023-10-10T02:38:44Z) - On the Safety of Open-Sourced Large Language Models: Does Alignment
Really Prevent Them From Being Misused? [49.99955642001019]
オープンソースでアライメントされた大きな言語モデルは、望ましくないコンテンツを生成するために簡単に誤解される可能性があることを示す。
我々のキーとなる考え方は、オープンソースLLMの生成プロセスを直接操作して、望ましくないコンテンツを生成するのを誤解することです。
論文 参考訳(メタデータ) (2023-10-02T19:22:01Z) - Calculating Originality of LLM Assisted Source Code [0.0]
本稿では,学生がソースコードを書く際の本来の取り組み(およびLLMの貢献)を決定するニューラルネットワークベースのツールを提案する。
我々のツールは、コルモゴロフ複雑性のような最小記述長測度によって動機付けられている。
論文 参考訳(メタデータ) (2023-07-10T11:30:46Z) - WizardCoder: Empowering Code Large Language Models with Evol-Instruct [67.24653703564492]
WezardCoderは、複雑な命令の微調整でコードLLMをパワーアップする。
私たちのモデルは、他のすべてのオープンソースコードLLMをかなり上回ります。
論文 参考訳(メタデータ) (2023-06-14T15:18:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。