論文の概要: Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4
- arxiv url: http://arxiv.org/abs/2305.00118v1
- Date: Fri, 28 Apr 2023 22:35:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 17:10:07.960485
- Title: Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4
- Title(参考訳): Speak, Memory: An Archaeology of Books known to ChatGPT/GPT-4
- Authors: Kent K. Chang, Mackenzie Cramer, Sandeep Soni and David Bamman
- Abstract要約: OpenAIモデルでは,著作権資料のコレクションが広く記憶されていることが判明した。
記憶の度合いは、それらの本がウェブに現れる頻度と結びついている。
- 参考スコア(独自算出の注目度): 5.637707892104864
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this work, we carry out a data archaeology to infer books that are known
to ChatGPT and GPT-4 using a name cloze membership inference query. We find
that OpenAI models have memorized a wide collection of copyrighted materials,
and that the degree of memorization is tied to the frequency with which
passages of those books appear on the web. The ability of these models to
memorize an unknown set of books complicates assessments of measurement
validity for cultural analytics by contaminating test data; we show that models
perform much better on memorized books than on non-memorized books for
downstream tasks. We argue that this supports a case for open models whose
training data is known.
- Abstract(参考訳): 本研究では,ChatGPT や GPT-4 で知られている書籍を,名前クローゼメンバシップ推論クエリを用いて推測するためのデータ考古学を行う。
OpenAIモデルでは,著作権資料のコレクションが広く記憶されており,その記憶度は,それらの書籍がWeb上に出現する頻度に関係していることがわかった。
これらのモデルが未知の書籍集合を記憶する能力は、テストデータを汚染することにより、文化的分析のための測定妥当性の評価を複雑化する。
これは、トレーニングデータが知られているオープンモデルの場合をサポートすると論じている。
関連論文リスト
- A Geometric Framework for Understanding Memorization in Generative Models [11.263296715798374]
近年の研究では、深層生成モデルにより、デプロイ時にトレーニングデータポイントを記憶・再生することが可能であることが示されている。
これらの知見は、特に暗記によって引き起こされる法的およびプライバシー上のリスクを考慮して、生成モデルのユーザビリティを疑問視する。
本稿では, 多様体の暗記仮説(MMH)を, 暗記を推論する明快な言語として活用する幾何学的枠組みを提案する。
論文 参考訳(メタデータ) (2024-10-31T18:09:01Z) - Rethinking LLM Memorization through the Lens of Adversarial Compression [93.13830893086681]
Webスケールデータセットでトレーニングされた大規模言語モデル(LLM)は、許容可能なデータ使用に関する重大な懸念を提起する。
ひとつ大きな疑問は、これらのモデルがすべてのトレーニングデータを"記憶する"のか、それとも、人間がどのように情報を学び、合成するかに何らかの方法で多くのデータソースを統合するのかである。
本稿では,LLMの記憶度を評価する指標として,ACR(Adversarial Compression Ratio)を提案する。
論文 参考訳(メタデータ) (2024-04-23T15:49:37Z) - Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws [51.68385617116854]
スケーリング法則は、言語モデルのサイズと能力の関係を記述している。
我々は、ウィキペディアのページから(米国、首都ワシントンD.C.など)ドメインとして表される事実知識に焦点を当てる。
7Bモデルは、英語のウィキペディアと教科書を合わせた14Bビットの知識を保存できる。
論文 参考訳(メタデータ) (2024-04-08T11:11:31Z) - SoK: Memorization in General-Purpose Large Language Models [25.448127387943053]
大規模言語モデル(LLM)は、無数のアプリケーションが開発中で、目覚ましいペースで進んでいる。
LLMはトレーニングデータの短い秘密を記憶できるだけでなく、さまざまな方法でテキストで表現できる事実や書体スタイルといった概念を記憶することもできる。
本稿では,文章,事実,アイデア,アルゴリズム,書式,分布特性,アライメント目標を網羅したLLMにおける記憶のための分類法を提案する。
論文 参考訳(メタデータ) (2023-10-24T14:25:53Z) - Memorization Without Overfitting: Analyzing the Training Dynamics of
Large Language Models [64.22311189896888]
因果的および仮面的言語モデリング、モデルサイズ、およびトレーニングプロセス全体における正確な記憶について検討する。
驚くべきことに、大きなモデルは過度に適合する前にデータの大部分を記憶し、トレーニングプロセスを通して忘れる傾向にある。
論文 参考訳(メタデータ) (2022-05-22T07:43:50Z) - Relation Extraction as Open-book Examination: Retrieval-enhanced Prompt
Tuning [109.7767515627765]
本稿では,関係抽出のための新たな半パラメトリックなプロンプトチューニング手法を提案する。
我々のモデルは、トレーニング中に重みに格納された知識を通して関係を推測する。
本手法は,標準的な教師付き設定と少数ショット設定の両方で最先端を実現することができる。
論文 参考訳(メタデータ) (2022-05-04T23:38:37Z) - Quantifying Memorization Across Neural Language Models [61.58529162310382]
大規模言語モデル(LM)は、トレーニングデータの一部を記憶するために示され、適切に誘導されると、記憶されたデータを冗長に出力する。
これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。
本稿では、LMが記憶されたトレーニングデータを出力する度合いを定量化する3つの対数線形関係について述べる。
論文 参考訳(メタデータ) (2022-02-15T18:48:31Z) - Counterfactual Memorization in Neural Language Models [91.8747020391287]
様々なNLPタスクで広く使用されている現代のニューラルネットワークモデルは、トレーニングデータからセンシティブな情報を記憶するリスクがある。
言語モデル記憶の以前の研究におけるオープンな疑問は、「一般的な」記憶の除去方法である。
トレーニング中に特定の文書が省略された場合、モデルの予測がどのように変化するかを特徴付ける反事実記憶の概念を定式化する。
論文 参考訳(メタデータ) (2021-12-24T04:20:57Z) - Memory-Associated Differential Learning [10.332918082271153]
メモリ関連微分学習(MAD)と呼ばれる新しい学習パラダイムを提案する。
まず,すべてのトレーニングデータを記憶するためにメモリと呼ばれる追加コンポーネントを導入する。次に,差分方程式といくつかのサンプリング手法の組み合わせによる特徴の関連性だけでなく,ラベルの違いも学習する。
評価フェーズでは,記憶された事実と学習した相違点および関連点を幾何学的に意味のある方法で参照することにより,未知のラベルを予測する。
論文 参考訳(メタデータ) (2021-02-10T03:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。