Fugu-MT 論文翻訳(概要): The (Ab)use of Open Source Code to Train Large Language Models

論文の概要: The (Ab)use of Open Source Code to Train Large Language Models

arxiv url: http://arxiv.org/abs/2302.13681v1
Date: Mon, 27 Feb 2023 11:34:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-28 15:56:47.919517
Title: The (Ab)use of Open Source Code to Train Large Language Models
Title（参考訳）: Ab)大規模言語モデルの学習におけるオープンソースコードの利用
Authors: Ali Al-Kaswan and Maliheh Izadi
Abstract要約: 記憶のセキュリティ、プライバシー、およびライセンスの意味について論じる。 LLMのトレーニングにコピーレフトコードを使うことが法的かつ倫理的なジレンマである理由を論じる。
参考スコア（独自算出の注目度）: 0.8122270502556374
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent years, Large Language Models (LLMs) have gained significant popularity due to their ability to generate human-like text and their potential applications in various fields, such as Software Engineering. LLMs for Code are commonly trained on large unsanitized corpora of source code scraped from the Internet. The content of these datasets is memorized and emitted by the models, often in a verbatim manner. In this work, we will discuss the security, privacy, and licensing implications of memorization. We argue why the use of copyleft code to train LLMs is a legal and ethical dilemma. Finally, we provide four actionable recommendations to address this issue.
Abstract（参考訳）: 近年,Large Language Models (LLM) は,ヒューマンライクなテキストを生成する能力と,ソフトウェア工学などの様々な分野における潜在的な応用能力から,大きな人気を集めている。 LLM for Codeは一般にインターネットから取り除かれた大規模な無害なソースコードコーパスで訓練されている。これらのデータセットの内容はモデルによって記憶され、しばしば口頭で出力される。本研究では,記憶のセキュリティ,プライバシ,ライセンスの意義について論じる。 LLMのトレーニングにコピーレフトコードを使うことが法的かつ倫理的なジレンマである理由を論じる。最後に、この問題に対処するために4つのアクション可能なレコメンデーションを提供します。

関連論文リスト

Can LLMs Replace Humans During Code Chunking? [2.4056836012742]
大規模言語モデル(LLM)は、特にコード理解と生成に関わるタスクにおいて、コンピュータ科学において重要なツールとなっている。本稿では,ALC および MUMPS で記述されたレガシ行政コードの近代化における LLM の適用について検討する。
論文参考訳（メタデータ） (2025-06-24T13:02:35Z)
Large Language Model Unlearning for Source Code [65.42425213605114]
PRODは、LLMがコード生成能力を保ちながら、望ましくないコード内容を忘れることができる新しいアンラーニングアプローチである。本評価は,既存の未学習アプローチと比較して,忘れ品質とモデルユーティリティのバランスが良好であることを示す。
論文参考訳（メタデータ） (2025-06-20T16:27:59Z)
Seed-Coder: Let the Code Model Curate Data for Itself [41.69830870792126]
8Bサイズの一連のオープンソースモデルであるSeed-Coderを紹介します。我々のコードはモデル中心のデータパイプラインによって生成される。 Seed-Coderは、同じサイズのオープンソースモデルの中で最先端の結果を達成する。
論文参考訳（メタデータ） (2025-06-04T03:17:19Z)
Information-Guided Identification of Training Data Imprint in (Proprietary) Large Language Models [52.439289085318634]
情報誘導プローブを用いて,プロプライエタリな大規模言語モデル (LLM) で知られているトレーニングデータを識別する方法を示す。我々の研究は、重要な観察の上に成り立っている: 高次数テキストパスは、暗記プローブにとって良い検索材料である。
論文参考訳（メタデータ） (2025-03-15T10:19:15Z)
Pragmatic Reasoning improves LLM Code Generation [35.78260347663757]
我々は,Rational Speech Act (RSA) フレームワーク上に構築された新しいコード候補付け機構であるCodeRSAを提案する。我々は、人気のあるコード生成データセット上で、最新のLarge Language Modelの1つを用いてCodeRSAを評価する。
論文参考訳（メタデータ） (2025-02-20T12:44:26Z)
Code Readability in the Age of Large Language Models: An Industrial Case Study from Atlassian [6.2250765474961405]
我々は,大規模言語モデル(LLM)の時代におけるコードの可読性に関する視点を探るため,調査を実施している。我々は,LLMベースのソフトウェア開発エージェントフレームワークであるHULAの可読性について,実世界のシナリオで生成したコードと人書きコードを比較して検討する。
論文参考訳（メタデータ） (2025-01-20T04:11:21Z)
A Survey on Large Language Models for Code Generation [9.555952109820392]
大規模言語モデル(LLM)は、様々なコード関連のタスクで顕著な進歩を遂げています。本調査は、総合的かつ最新の文献レビューを提供することで、学界と実践的発展のギャップを埋めることを目的としている。
論文参考訳（メタデータ） (2024-06-01T17:48:15Z)
Assessing LLMs in Malicious Code Deobfuscation of Real-world Malware Campaigns [7.776434991976473]
本稿では,大規模言語モデル(LLM)の難読化機能について検討する。我々は,悪名高いEmotetマルウェアキャンペーンで使用されている現実の悪意のあるスクリプトを用いた4つのLSMを評価した。以上の結果から,まだ完全には正確ではないものの,これらのペイロードを効率よく除去できるLCMが存在することが示唆された。
論文参考訳（メタデータ） (2024-04-30T17:06:27Z)
CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。 CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保存するために追加情報を埋め込む。 5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文参考訳（メタデータ） (2024-04-24T04:25:04Z)
Amharic LLaMA and LLaVA: Multimodal LLMs for Low Resource Languages [0.0]
大規模言語モデル(LLM)は、自然言語処理タスクにおいて驚くほどの習熟度を示している。 LLMは、トレーニングデータが少ないため、低リソースの言語でよく機能するのに苦労することが多い。本研究では,世界5000万人以上の人々が話す言語であるAmharicを話すためのLLaMA-2の訓練について検討する。
論文参考訳（メタデータ） (2024-03-11T01:04:36Z)
Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文参考訳（メタデータ） (2024-02-06T20:38:46Z)
If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練されるコードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文参考訳（メタデータ） (2024-01-01T16:51:20Z)
CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model [58.127534002232096]
本稿では,オープンソースの事前学習型LLMであるCodeFuse-13Bを紹介する。英語と中国語の両方のプロンプトによるコード関連のタスク用に特別に設計されている。 CodeFuseは、高品質な事前トレーニングデータセットを利用することで、その効果を達成する。
論文参考訳（メタデータ） (2023-10-10T02:38:44Z)
On the Safety of Open-Sourced Large Language Models: Does Alignment Really Prevent Them From Being Misused? [49.99955642001019]
オープンソースでアライメントされた大きな言語モデルは、望ましくないコンテンツを生成するために簡単に誤解される可能性があることを示す。我々のキーとなる考え方は、オープンソースLLMの生成プロセスを直接操作して、望ましくないコンテンツを生成するのを誤解することです。
論文参考訳（メタデータ） (2023-10-02T19:22:01Z)
Calculating Originality of LLM Assisted Source Code [0.0]
本稿では,学生がソースコードを書く際の本来の取り組み(およびLLMの貢献)を決定するニューラルネットワークベースのツールを提案する。我々のツールは、コルモゴロフ複雑性のような最小記述長測度によって動機付けられている。
論文参考訳（メタデータ） (2023-07-10T11:30:46Z)
WizardCoder: Empowering Code Large Language Models with Evol-Instruct [67.24653703564492]
WezardCoderは、複雑な命令の微調整でコードLLMをパワーアップする。私たちのモデルは、他のすべてのオープンソースコードLLMをかなり上回ります。
論文参考訳（メタデータ） (2023-06-14T15:18:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。