論文の概要: SoK: Memorization in General-Purpose Large Language Models
- arxiv url: http://arxiv.org/abs/2310.18362v1
- Date: Tue, 24 Oct 2023 14:25:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-05 13:39:16.077813
- Title: SoK: Memorization in General-Purpose Large Language Models
- Title(参考訳): SoK: 汎用大規模言語モデルにおける記憶
- Authors: Valentin Hartmann, Anshuman Suri, Vincent Bindschaedler, David Evans,
Shruti Tople, Robert West
- Abstract要約: 大規模言語モデル(LLM)は、無数のアプリケーションが開発中で、目覚ましいペースで進んでいる。
LLMはトレーニングデータの短い秘密を記憶できるだけでなく、さまざまな方法でテキストで表現できる事実や書体スタイルといった概念を記憶することもできる。
本稿では,文章,事実,アイデア,アルゴリズム,書式,分布特性,アライメント目標を網羅したLLMにおける記憶のための分類法を提案する。
- 参考スコア(独自算出の注目度): 25.448127387943053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are advancing at a remarkable pace, with myriad
applications under development. Unlike most earlier machine learning models,
they are no longer built for one specific application but are designed to excel
in a wide range of tasks. A major part of this success is due to their huge
training datasets and the unprecedented number of model parameters, which allow
them to memorize large amounts of information contained in the training data.
This memorization goes beyond mere language, and encompasses information only
present in a few documents. This is often desirable since it is necessary for
performing tasks such as question answering, and therefore an important part of
learning, but also brings a whole array of issues, from privacy and security to
copyright and beyond. LLMs can memorize short secrets in the training data, but
can also memorize concepts like facts or writing styles that can be expressed
in text in many different ways. We propose a taxonomy for memorization in LLMs
that covers verbatim text, facts, ideas and algorithms, writing styles,
distributional properties, and alignment goals. We describe the implications of
each type of memorization - both positive and negative - for model performance,
privacy, security and confidentiality, copyright, and auditing, and ways to
detect and prevent memorization. We further highlight the challenges that arise
from the predominant way of defining memorization with respect to model
behavior instead of model weights, due to LLM-specific phenomena such as
reasoning capabilities or differences between decoding algorithms. Throughout
the paper, we describe potential risks and opportunities arising from
memorization in LLMs that we hope will motivate new research directions.
- Abstract(参考訳): 大規模言語モデル(LLM)は、無数のアプリケーションが開発中で、目覚ましいペースで進んでいる。
従来の機械学習モデルとは異なり、それらはもはや特定のアプリケーションのために構築されるものではなく、幅広いタスクに優れたように設計されている。
この成功の大きな要因は、膨大なトレーニングデータセットと、トレーニングデータに含まれる大量の情報を記憶できる前例のない数のモデルパラメータにある。
この記憶は単なる言語にとどまらず、いくつかの文書にのみ存在する情報を包含している。
これは、質問応答のようなタスクを実行するために必要であり、したがって学習の重要な部分であるため、しばしば望ましいが、プライバシーやセキュリティ、著作権など、さまざまな問題をもたらす。
LLMはトレーニングデータの短い秘密を記憶できるだけでなく、さまざまな方法でテキストで表現できる事実や書体スタイルといった概念を記憶することもできる。
本稿では,文章,事実,アイデア,アルゴリズム,書式,分布特性,アライメント目標を網羅したLLMにおける記憶のための分類法を提案する。
モデル性能,プライバシ,セキュリティ,機密性,著作権,監査,暗記の検出と防止方法など,各種類の暗記(肯定的かつ否定的)が持つ意味について述べる。
さらに,モデル重みの代わりにモデルの振る舞いを暗記する手法が主流であることから生じる課題についても,推論能力や復号アルゴリズムの違いといったllm特有の現象により強調する。
本稿では,LSMの記憶から生じる潜在的なリスクと可能性について述べる。
関連論文リスト
- Undesirable Memorization in Large Language Models: A Survey [5.659933808910005]
大規模言語モデル(LLM)における記憶の話題に関する知識体系化(SoK)を提案する。
記憶とは、モデルがトレーニングデータからフレーズやフレーズを保存し、再生する傾向があることである。
本研究は,記憶現象に寄与する要因の解析に続き,記憶現象を測定するために用いられる指標と方法について議論する。
論文 参考訳(メタデータ) (2024-10-03T16:34:46Z) - Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。
本研究は, より単純で知識集約的なタスクにおいて, 記憶がより大きな役割を担い, 一般化が, より困難で推論に基づくタスクの鍵であることを示す。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - Rethinking LLM Memorization through the Lens of Adversarial Compression [93.13830893086681]
Webスケールデータセットでトレーニングされた大規模言語モデル(LLM)は、許容可能なデータ使用に関する重大な懸念を提起する。
ひとつ大きな疑問は、これらのモデルがすべてのトレーニングデータを"記憶する"のか、それとも、人間がどのように情報を学び、合成するかに何らかの方法で多くのデータソースを統合するのかである。
本稿では,LLMの記憶度を評価する指標として,ACR(Adversarial Compression Ratio)を提案する。
論文 参考訳(メタデータ) (2024-04-23T15:49:37Z) - Do LLMs Dream of Ontologies? [15.049502693786698]
大規模言語モデル(LLM)は、最近、自動テキスト理解と生成に革命をもたらした。
本稿では,汎用的な事前学習 LLM が,どの程度の知識を持つかを検討する。
論文 参考訳(メタデータ) (2024-01-26T15:10:23Z) - Exploring Memorization in Fine-tuned Language Models [53.52403444655213]
我々は,タスク間の微調整中に,言語モデルの暗記を探索する最初の包括的分析を行う。
オープンソースと、さまざまなタスクにまたがる独自の微調整LMによる研究は、暗記が様々な微調整タスクの間に強い相違を示すことを示している。
本稿では,この課題の相違をスパース符号化理論を用いて直感的に説明し,暗記と注目スコア分布との強い相関関係を明らかにする。
論文 参考訳(メタデータ) (2023-10-10T15:41:26Z) - Quantifying and Analyzing Entity-level Memorization in Large Language
Models [4.59914731734176]
大規模言語モデル(LLM)は、トレーニングデータを記憶できることが証明されている。
記憶から生じるプライバシーリスクが注目されている。
実世界のシナリオに近い条件やメトリクスで記憶を定量化するための,詳細なエンティティレベルの定義を提案する。
論文 参考訳(メタデータ) (2023-08-30T03:06:47Z) - Unveiling Memorization in Code Models [13.867618700182486]
コードモデルは、脆弱性や機密情報、厳格なライセンスを持つコードを含む可能性のあるソースコードの冗長性を記憶し、生成する。
本稿では,学習データをどの程度記憶するコードモデルについて検討する。
3つのカテゴリと14のサブカテゴリで記憶されたコンテンツの分類を構築します。
論文 参考訳(メタデータ) (2023-08-19T07:25:39Z) - Preventing Verbatim Memorization in Language Models Gives a False Sense
of Privacy [91.98116450958331]
我々は、動詞の暗記の定義があまりに制限的であり、より微妙な暗記の形式を捉えることができないと論じる。
具体的には、全ての動詞の暗記を完全に防止する効率的な防御を設計し、実装する。
我々は、潜在的な代替定義について議論し、なぜ記憶の定義がニューラルネットワークモデルにとって難しいが決定的なオープンな問題であるのかを論じる。
論文 参考訳(メタデータ) (2022-10-31T17:57:55Z) - Quantifying Memorization Across Neural Language Models [61.58529162310382]
大規模言語モデル(LM)は、トレーニングデータの一部を記憶するために示され、適切に誘導されると、記憶されたデータを冗長に出力する。
これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。
本稿では、LMが記憶されたトレーニングデータを出力する度合いを定量化する3つの対数線形関係について述べる。
論文 参考訳(メタデータ) (2022-02-15T18:48:31Z) - Counterfactual Memorization in Neural Language Models [91.8747020391287]
様々なNLPタスクで広く使用されている現代のニューラルネットワークモデルは、トレーニングデータからセンシティブな情報を記憶するリスクがある。
言語モデル記憶の以前の研究におけるオープンな疑問は、「一般的な」記憶の除去方法である。
トレーニング中に特定の文書が省略された場合、モデルの予測がどのように変化するかを特徴付ける反事実記憶の概念を定式化する。
論文 参考訳(メタデータ) (2021-12-24T04:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。