論文の概要: ROME: Memorization Insights from Text, Logits and Representation
- arxiv url: http://arxiv.org/abs/2403.00510v3
- Date: Sun, 16 Jun 2024 13:53:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 05:46:37.697344
- Title: ROME: Memorization Insights from Text, Logits and Representation
- Title(参考訳): ROME: テキスト,ログ,表現からの覚書
- Authors: Bo Li, Qinghua Zhao, Lijie Wen,
- Abstract要約: 本稿では、トレーニングデータの直接処理をバイパスするROMEという革新的な手法を提案する。
具体的には、コンテキスト非依存、従来型、事実の3つの異なるタイプに分類されるデータセットを選択します。
そこで本研究では,生成したテキストのロジットと表現を調べることで,記憶されたサンプルと記憶されていないサンプルの相違に着目した。
- 参考スコア(独自算出の注目度): 17.458840481902644
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Previous works have evaluated memorization by comparing model outputs with training corpora, examining how factors such as data duplication, model size, and prompt length influence memorization. However, analyzing these extensive training corpora is highly time-consuming. To address this challenge, this paper proposes an innovative approach named ROME that bypasses direct processing of the training data. Specifically, we select datasets categorized into three distinct types -- context-independent, conventional, and factual -- and redefine memorization as the ability to produce correct answers under these conditions. Our analysis then focuses on disparities between memorized and non-memorized samples by examining the logits and representations of generated texts. Experimental findings reveal that longer words are less likely to be memorized, higher confidence correlates with greater memorization, and representations of the same concepts are more similar across different contexts. Our code and data will be publicly available when the paper is accepted.
- Abstract(参考訳): 過去の研究は、モデル出力とトレーニングコーパスを比較し、データ重複、モデルサイズ、即時長の記憶などの要因が記憶にどのように影響するかを調べた。
しかし、これらの広範なトレーニングコーパスを分析するのは非常に時間がかかる。
この課題に対処するため,本論文では,トレーニングデータの直接処理を回避したROMEという革新的な手法を提案する。
具体的には、文脈に依存しない、従来的、事実の3つの異なるタイプに分類されるデータセットを選択し、これらの条件下で正しい回答を生成する能力として記憶を再定義する。
そこで本研究では,生成したテキストのロジットと表現を調べることで,記憶されたサンプルと記憶されていないサンプルの相違に着目した。
実験結果から、長い単語は暗記される可能性が低く、高い信頼度はより大きい暗記と相関し、同じ概念の表現は異なる文脈でより類似していることが明らかとなった。
論文が受理されたら、私たちのコードとデータは公開されます。
関連論文リスト
- A Geometric Framework for Understanding Memorization in Generative Models [11.263296715798374]
近年の研究では、深層生成モデルにより、デプロイ時にトレーニングデータポイントを記憶・再生することが可能であることが示されている。
これらの知見は、特に暗記によって引き起こされる法的およびプライバシー上のリスクを考慮して、生成モデルのユーザビリティを疑問視する。
本稿では, 多様体の暗記仮説(MMH)を, 暗記を推論する明快な言語として活用する幾何学的枠組みを提案する。
論文 参考訳(メタデータ) (2024-10-31T18:09:01Z) - Demystifying Verbatim Memorization in Large Language Models [67.49068128909349]
大きな言語モデル(LLM)は、しばしば長いシーケンスを冗長に記憶し、しばしば深刻な法的およびプライバシー上の意味を持つ。
我々は, Pythia チェックポイントからのプレトレーニングをインジェクトシーケンスで継続することにより, 制御された環境下での動詞の暗記を学習する枠組みを開発する。
その結果,(1) 動詞の暗記には非自明な繰り返しが必要であり,(2) 後続の(おそらくはより良い)チェックポイントは,アウト・オブ・ディストリビューション・シーケンスであっても,動詞の列を暗記する傾向にあることがわかった。
論文 参考訳(メタデータ) (2024-07-25T07:10:31Z) - Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。
本研究は, より単純で知識集約的なタスクにおいて, 記憶がより大きな役割を担い, 一般化が, より困難で推論に基づくタスクの鍵であることを示す。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - A Multi-Perspective Analysis of Memorization in Large Language Models [10.276594755936529]
大規模言語モデル(LLM)は様々な分野で前例のない性能を示す。
LLMはそれらをトレーニングするのと同じコンテンツを生成することができる。
この研究は、様々な観点から記憶を包括的に議論した。
論文 参考訳(メタデータ) (2024-05-19T15:00:50Z) - Understanding (Un)Intended Memorization in Text-to-Image Generative
Models [16.447035745151428]
本稿では,テキスト・ツー・イメージ・モデルに特化して記憶の特殊定義を導入し,ユーザの期待に応じて3つの異なるタイプに分類する。
本稿では,ユーザプライバシとモデル出力の生成品質のバランスをとることの重要性を強調し,意図しない記憶と意図しない記憶の微妙な区別について検討する。
論文 参考訳(メタデータ) (2023-12-06T19:53:17Z) - Exploring Memorization in Fine-tuned Language Models [53.52403444655213]
我々は,タスク間の微調整中に,言語モデルの暗記を探索する最初の包括的分析を行う。
オープンソースと、さまざまなタスクにまたがる独自の微調整LMによる研究は、暗記が様々な微調整タスクの間に強い相違を示すことを示している。
本稿では,この課題の相違をスパース符号化理論を用いて直感的に説明し,暗記と注目スコア分布との強い相関関係を明らかにする。
論文 参考訳(メタデータ) (2023-10-10T15:41:26Z) - Measures of Information Reflect Memorization Patterns [53.71420125627608]
異なるニューロンの活性化パターンの多様性は、モデル一般化と記憶の反映であることを示す。
重要なことは、情報組織が記憶の2つの形態を指していることである。
論文 参考訳(メタデータ) (2022-10-17T20:15:24Z) - Quantifying Memorization Across Neural Language Models [61.58529162310382]
大規模言語モデル(LM)は、トレーニングデータの一部を記憶するために示され、適切に誘導されると、記憶されたデータを冗長に出力する。
これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。
本稿では、LMが記憶されたトレーニングデータを出力する度合いを定量化する3つの対数線形関係について述べる。
論文 参考訳(メタデータ) (2022-02-15T18:48:31Z) - Counterfactual Memorization in Neural Language Models [91.8747020391287]
様々なNLPタスクで広く使用されている現代のニューラルネットワークモデルは、トレーニングデータからセンシティブな情報を記憶するリスクがある。
言語モデル記憶の以前の研究におけるオープンな疑問は、「一般的な」記憶の除去方法である。
トレーニング中に特定の文書が省略された場合、モデルの予測がどのように変化するかを特徴付ける反事実記憶の概念を定式化する。
論文 参考訳(メタデータ) (2021-12-24T04:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。