Fugu-MT 論文翻訳(概要): Traces of Memorisation in Large Language Models for Code

論文の概要: Traces of Memorisation in Large Language Models for Code

arxiv url: http://arxiv.org/abs/2312.11658v2
Date: Mon, 15 Jan 2024 21:24:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-18 00:14:25.243400
Title: Traces of Memorisation in Large Language Models for Code
Title（参考訳）: コード用大規模言語モデルにおける記憶の痕跡
Authors: Ali Al-Kaswan and Maliheh Izadi and Arie van Deursen
Abstract要約: コードのための大規模な言語モデルは、一般にインターネットから取り除かれた大量のソースコードコーパスで訓練される。記憶の速度を、自然言語で訓練された大きな言語モデルと比較する。コードのための大きな言語モデルは、自然言語のようなデータ抽出攻撃に弱いことが分かりました。
参考スコア（独自算出の注目度）: 16.125924759649106
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models have gained significant popularity because of their ability to generate human-like text and potential applications in various fields, such as Software Engineering. Large language models for code are commonly trained on large unsanitised corpora of source code scraped from the internet. The content of these datasets is memorised and can be extracted by attackers with data extraction attacks. In this work, we explore memorisation in large language models for code and compare the rate of memorisation with large language models trained on natural language. We adopt an existing benchmark for natural language and construct a benchmark for code by identifying samples that are vulnerable to attack. We run both benchmarks against a variety of models, and perform a data extraction attack. We find that large language models for code are vulnerable to data extraction attacks, like their natural language counterparts. From the training data that was identified to be potentially extractable we were able to extract 47% from a CodeGen-Mono-16B code completion model. We also observe that models memorise more, as their parameter count grows, and that their pre-training data are also vulnerable to attack. We also find that data carriers are memorised at a higher rate than regular code or documentation and that different model architectures memorise different samples. Data leakage has severe outcomes, so we urge the research community to further investigate the extent of this phenomenon using a wider range of models and extraction techniques in order to build safeguards to mitigate this issue.
Abstract（参考訳）: 大規模な言語モデルは、ヒューマンライクなテキストを生成する能力と、ソフトウェア工学のような様々な分野の潜在的な応用により、大きな人気を集めている。コードのための大規模な言語モデルは、一般にインターネットから取り除かれた大量のソースコードコーパスで訓練される。これらのデータセットの内容は記憶され、データ抽出攻撃の攻撃者によって抽出される。本研究では,コードに対する大規模言語モデルの記憶率を調査し,その記憶率を自然言語で学習した大規模言語モデルと比較する。我々は、既存の自然言語ベンチマークを採用し、攻撃に弱いサンプルを識別することで、コードのベンチマークを構築します。さまざまなモデルに対して両方のベンチマークを実行し、データ抽出攻撃を実行します。コードのための大きな言語モデルは、自然言語のようなデータ抽出攻撃に弱いことが分かりました。潜在的に抽出可能なトレーニングデータから,CodeGen-Mono-16Bコード補完モデルから47%を抽出することができた。また,パラメータ数が増加するにつれてモデルが記憶する量が増え,事前学習データも攻撃に弱いことも観察した。また、データキャリアは通常のコードやドキュメントよりも高い速度で記憶されており、異なるモデルアーキテクチャが異なるサンプルを記憶していることも分かりました。データの漏洩は深刻な結果をもたらすため,より広い範囲のモデルと抽出技術を用いて,この現象の程度をさらに調査し,この問題を軽減するための安全対策を構築するよう,研究コミュニティに要請する。

関連論文リスト

A Multi-Language Perspective on the Robustness of LLM Code Generation [2.580765958706854]
我々は、いくつかの顕著なコード生成モデルの堅牢性を評価するために、包括的な比較分析を行う。プロンプトの4つの重要な領域、DocString、関数名、構文、フォーマットに摂動を導入する。本研究は,様々なシナリオにおけるコード生成モデルの性能に光を当て,実験結果を示す。
論文参考訳（メタデータ） (2025-04-27T05:00:21Z)
The Heap: A Contamination-Free Multilingual Code Dataset for Evaluating Large Language Models [13.134215997081157]
57のプログラミング言語をカバーする大規模な多言語データセットであるThe Heapをリリースする。このデータセットにより、研究者は大きな言語モデルの公正な評価を、大きなデータのクリーニングオーバーヘッドなしに行うことができる。
論文参考訳（メタデータ） (2025-01-16T16:48:41Z)
Scalable Extraction of Training Data from (Production) Language Models [93.7746567808049]
本稿では,学習データセットの事前知識を必要とせず,機械学習モデルに問い合わせることで,相手が効率的に抽出できる学習データについて検討する。敵は、PythiaやGPT-Neoのようなオープンソースの言語モデル、LLaMAやFalconのようなセミオープンモデル、ChatGPTのようなクローズドモデルから、ギガバイトのトレーニングデータを抽出できることを示す。
論文参考訳（メタデータ） (2023-11-28T18:47:03Z)
Language Models are Universal Embedders [48.12992614723464]
事前学習されたトランスフォーマーデコーダは、限定的な英語データに基づいて微調整された場合、普遍的に埋め込み可能であることを示す。我々のモデルは、最小限のトレーニングデータにより、異なる埋め込みタスクにおける競争性能を達成する。これらの結果は、強力な統合インバータを構築するための有望な道の証となる。
論文参考訳（メタデータ） (2023-10-12T11:25:46Z)
CodeLMSec Benchmark: Systematically Evaluating and Finding Security Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文参考訳（メタデータ） (2023-02-08T11:54:07Z)
Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。これらのデータセットは10以上のプログラミング言語をカバーする。コード生成モデルの性能を多言語で評価することができる。
論文参考訳（メタデータ） (2022-10-26T17:17:06Z)
Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文参考訳（メタデータ） (2021-04-30T16:55:28Z)
Extracting Training Data from Large Language Models [78.3839333127544]
本論文では,言語モデルに問い合わせることで,学習データ抽出攻撃を実行して個々のトレーニング例を回復できることを実証する。我々は,公開インターネットのスクレイプ上で訓練された言語モデルgpt-2に対する攻撃を実証し,モデルのトレーニングデータから数百の動詞のテキストシーケンスを抽出することができることを示した。
論文参考訳（メタデータ） (2020-12-14T18:39:09Z)
Comparison of Interactive Knowledge Base Spelling Correction Models for Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文参考訳（メタデータ） (2020-10-20T17:31:07Z)
Automated Source Code Generation and Auto-completion Using Deep Learning: Comparing and Discussing Current Language-Model-Related Approaches [0.0]
本稿では、異なるディープラーニングアーキテクチャを比較して、プログラミングコードに基づく言語モデルを作成し、使用する。それぞれのアプローチのさまざまな長所と短所と、言語モデルを評価したり、実際のプログラミングコンテキストでそれらを適用するためのギャップについて論じる。
論文参考訳（メタデータ） (2020-09-16T15:17:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。