論文の概要: What Do Code Models Memorize? An Empirical Study on Large Language
Models of Code
- arxiv url: http://arxiv.org/abs/2308.09932v1
- Date: Sat, 19 Aug 2023 07:25:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 13:28:44.211237
- Title: What Do Code Models Memorize? An Empirical Study on Large Language
Models of Code
- Title(参考訳): コードモデルは何を記憶するか?
コードの大規模言語モデルに関する実証的研究
- Authors: Zhou Yang, Zhipeng Zhao, Chenyu Wang, Jieke Shi, Dongsun Kim, DongGyun
Han, David Lo
- Abstract要約: コードモデルは、脆弱性や機密情報、厳格なライセンスを持つコードを含む可能性のあるソースコードの冗長性を記憶し、生成する。
本稿では,学習データをどの程度記憶するコードモデルについて検討する。
3つのカテゴリと14のサブカテゴリで記憶されたコンテンツの分類を構築します。
- 参考スコア(独自算出の注目度): 13.867618700182486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The availability of large-scale datasets, advanced architectures, and
powerful computational resources have led to effective code models that
automate diverse software engineering activities. The datasets usually consist
of billions of lines of code from both open-source and private repositories. A
code model memorizes and produces source code verbatim, which potentially
contains vulnerabilities, sensitive information, or code with strict licenses,
leading to potential security and privacy issues.
This paper investigates an important problem: to what extent do code models
memorize their training data? We conduct an empirical study to explore
memorization in large pre-trained code models. Our study highlights that simply
extracting 20,000 outputs (each having 512 tokens) from a code model can
produce over 40,125 code snippets that are memorized from the training data. To
provide a better understanding, we build a taxonomy of memorized contents with
3 categories and 14 subcategories. The results show that the prompts sent to
the code models affect the distribution of memorized contents. We identify
several key factors of memorization. Specifically, given the same architecture,
larger models suffer more from memorization problems. A code model produces
more memorization when it is allowed to generate longer outputs. We also find a
strong positive correlation between the number of an output's occurrences in
the training data and that in the generated outputs, which indicates that a
potential way to reduce memorization is to remove duplicates in the training
data. We then identify effective metrics that infer whether an output contains
memorization accurately. We also make some suggestions regarding dealing with
memorization in code models.
- Abstract(参考訳): 大規模なデータセット、高度なアーキテクチャ、強力な計算リソースが利用可能になったことで、さまざまなソフトウェアエンジニアリング活動を自動化する効果的なコードモデルが生まれました。
データセットは通常、オープンソースとプライベート両方のリポジトリから数十億行のコードで構成される。
コードモデルは、脆弱性、機密情報、あるいは厳格なライセンスを持つコードを含む可能性のあるソースコードを記憶し、生成し、潜在的なセキュリティとプライバシの問題を引き起こす。
本稿では,コードモデルがどの程度トレーニングデータを記憶しているかという問題について検討する。
我々は、大規模な事前学習されたコードモデルにおける記憶の探索を経験的研究する。
コードモデルから2万のアウトプット(それぞれ512のトークンを持つ)を抽出するだけで,トレーニングデータから40,125以上のコードスニペットを生成することができる。
より理解を深めるため、3つのカテゴリと14のサブカテゴリからなる記憶コンテンツの分類法を構築した。
その結果、コードモデルに送信されたプロンプトが記憶されたコンテンツの分布に影響を与えることがわかった。
記憶の鍵となる要素がいくつかある。
特に、同じアーキテクチャを考えると、より大きなモデルは記憶の問題に苦しむ。
コードモデルは、より長い出力を生成することができると、より記憶力を高める。
また, 学習データにおける出力数と生成した出力との間には正の相関が強く, 記憶を減少させる潜在的な方法は学習データの重複を取り除くことである。
そして、そのアウトプットが記憶を正確に含むかどうかを推測する効果的な指標を特定する。
また、コードモデルの記憶を扱うことについてもいくつか提案します。
関連論文リスト
- Rethinking LLM Memorization through the Lens of Adversarial Compression [93.13830893086681]
Webスケールデータセットでトレーニングされた大規模言語モデル(LLM)は、許容可能なデータ使用に関する重大な懸念を提起する。
ひとつ大きな疑問は、これらのモデルがすべてのトレーニングデータを"記憶する"のか、それとも、人間がどのように情報を学び、合成するかに何らかの方法で多くのデータソースを統合するのかである。
本稿では,LLMの記憶度を評価する指標として,ACR(Adversarial Compression Ratio)を提案する。
論文 参考訳(メタデータ) (2024-04-23T15:49:37Z) - Traces of Memorisation in Large Language Models for Code [16.125924759649106]
コードのための大規模な言語モデルは、一般にインターネットから取り除かれた大量のソースコードコーパスで訓練される。
記憶の速度を、自然言語で訓練された大きな言語モデルと比較する。
コードのための大きな言語モデルは、自然言語のようなデータ抽出攻撃に弱いことが分かりました。
論文 参考訳(メタデータ) (2023-12-18T19:12:58Z) - SoK: Memorization in General-Purpose Large Language Models [25.448127387943053]
大規模言語モデル(LLM)は、無数のアプリケーションが開発中で、目覚ましいペースで進んでいる。
LLMはトレーニングデータの短い秘密を記憶できるだけでなく、さまざまな方法でテキストで表現できる事実や書体スタイルといった概念を記憶することもできる。
本稿では,文章,事実,アイデア,アルゴリズム,書式,分布特性,アライメント目標を網羅したLLMにおける記憶のための分類法を提案する。
論文 参考訳(メタデータ) (2023-10-24T14:25:53Z) - Exploring Memorization in Fine-tuned Language Models [53.52403444655213]
我々は,タスク間の微調整中に,言語モデルの暗記を探索する最初の包括的分析を行う。
オープンソースと、さまざまなタスクにまたがる独自の微調整LMによる研究は、暗記が様々な微調整タスクの間に強い相違を示すことを示している。
本稿では,この課題の相違をスパース符号化理論を用いて直感的に説明し,暗記と注目スコア分布との強い相関関係を明らかにする。
論文 参考訳(メタデータ) (2023-10-10T15:41:26Z) - Quantifying and Analyzing Entity-level Memorization in Large Language
Models [4.59914731734176]
大規模言語モデル(LLM)は、トレーニングデータを記憶できることが証明されている。
記憶から生じるプライバシーリスクが注目されている。
実世界のシナリオに近い条件やメトリクスで記憶を定量化するための,詳細なエンティティレベルの定義を提案する。
論文 参考訳(メタデータ) (2023-08-30T03:06:47Z) - Measures of Information Reflect Memorization Patterns [53.71420125627608]
異なるニューロンの活性化パターンの多様性は、モデル一般化と記憶の反映であることを示す。
重要なことは、情報組織が記憶の2つの形態を指していることである。
論文 参考訳(メタデータ) (2022-10-17T20:15:24Z) - Memorization Without Overfitting: Analyzing the Training Dynamics of
Large Language Models [64.22311189896888]
因果的および仮面的言語モデリング、モデルサイズ、およびトレーニングプロセス全体における正確な記憶について検討する。
驚くべきことに、大きなモデルは過度に適合する前にデータの大部分を記憶し、トレーニングプロセスを通して忘れる傾向にある。
論文 参考訳(メタデータ) (2022-05-22T07:43:50Z) - Quantifying Memorization Across Neural Language Models [61.58529162310382]
大規模言語モデル(LM)は、トレーニングデータの一部を記憶するために示され、適切に誘導されると、記憶されたデータを冗長に出力する。
これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。
本稿では、LMが記憶されたトレーニングデータを出力する度合いを定量化する3つの対数線形関係について述べる。
論文 参考訳(メタデータ) (2022-02-15T18:48:31Z) - Counterfactual Memorization in Neural Language Models [91.8747020391287]
様々なNLPタスクで広く使用されている現代のニューラルネットワークモデルは、トレーニングデータからセンシティブな情報を記憶するリスクがある。
言語モデル記憶の以前の研究におけるオープンな疑問は、「一般的な」記憶の除去方法である。
トレーニング中に特定の文書が省略された場合、モデルの予測がどのように変化するかを特徴付ける反事実記憶の概念を定式化する。
論文 参考訳(メタデータ) (2021-12-24T04:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。