論文の概要: Elephants Never Forget: Memorization and Learning of Tabular Data in Large Language Models
- arxiv url: http://arxiv.org/abs/2404.06209v1
- Date: Tue, 9 Apr 2024 10:58:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 15:00:05.080238
- Title: Elephants Never Forget: Memorization and Learning of Tabular Data in Large Language Models
- Title(参考訳): Elephants Never Forget:大規模言語モデルにおける語彙データの記憶と学習
- Authors: Sebastian Bordt, Harsha Nori, Vanessa Rodrigues, Besmira Nushi, Rich Caruana,
- Abstract要約: トレーニング中に、言語モデルがデータセットを見たかどうかを評価するために、さまざまなテクニックを導入します。
トレーニング中に見られたデータセット上でのLLMの数発の学習性能と、トレーニング後にリリースされたデータセットのパフォーマンスを比較した。
LLMはトレーニング中に見られるデータセットよりも優れており、記憶が過度に適合することを示している。
- 参考スコア(独自算出の注目度): 21.10890310571397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While many have shown how Large Language Models (LLMs) can be applied to a diverse set of tasks, the critical issues of data contamination and memorization are often glossed over. In this work, we address this concern for tabular data. Specifically, we introduce a variety of different techniques to assess whether a language model has seen a tabular dataset during training. This investigation reveals that LLMs have memorized many popular tabular datasets verbatim. We then compare the few-shot learning performance of LLMs on datasets that were seen during training to the performance on datasets released after training. We find that LLMs perform better on datasets seen during training, indicating that memorization leads to overfitting. At the same time, LLMs show non-trivial performance on novel datasets and are surprisingly robust to data transformations. We then investigate the in-context statistical learning abilities of LLMs. Without fine-tuning, we find them to be limited. This suggests that much of the few-shot performance on novel datasets is due to the LLM's world knowledge. Overall, our results highlight the importance of testing whether an LLM has seen an evaluation dataset during pre-training. We make the exposure tests we developed available as the tabmemcheck Python package at https://github.com/interpretml/LLM-Tabular-Memorization-Checker
- Abstract(参考訳): 大規模言語モデル(LLM)が様々なタスクにどのように適用できるかを示すものが多いが、データ汚染と記憶の重大な問題は、しばしば誇張されている。
本稿では,この問題に対処する。
具体的には、トレーニング中に言語モデルが表のデータセットを見たかどうかを評価するために、さまざまなテクニックを紹介します。
この調査は、LLMが多くの人気のある表のデータセットを冗長に記憶していることを示している。
次に、トレーニング中に見られたデータセット上でのLLMの数発の学習性能と、トレーニング後にリリースされたデータセットのパフォーマンスを比較した。
LLMはトレーニング中に見られるデータセットよりも優れており、記憶が過度に適合することを示している。
同時に、LLMは、新しいデータセットで非自明なパフォーマンスを示し、驚くほどデータ変換に堅牢である。
次に,LLMの文脈内統計的学習能力について検討する。
微調整なしでは、それらに制限がある。
これは、新しいデータセットにおける数ショットのパフォーマンスの大部分は、LLMの世界的知識によるものであることを示唆している。
本研究の結果は,LLMが事前学習中に評価データセットを見たかどうかをテストすることの重要性を強調した。
われわれが開発した露出テストは、https://github.com/interpretml/LLM-Tabular-Memorization-CheckerにあるTabmemcheck Pythonパッケージで利用可能です。
関連論文リスト
- MiniCheck: Efficient Fact-Checking of LLMs on Grounding Documents [62.02920842630234]
GPT-4レベルの性能を持つ小型モデルを400倍のコストで構築する方法を示す。
既存のデータセットを LLM-AggreFact ベンチマークにまとめる。
我々の最良のシステム MiniCheck-FT5 (770Mパラメータ) は、同等の大きさの全てのシステムより優れ、GPT-4精度に達する。
論文 参考訳(メタデータ) (2024-04-16T17:59:10Z) - Elephants Never Forget: Testing Language Models for Memorization of
Tabular Data [21.912611415307644]
大規模言語モデル (LLM) は様々なタスクに適用できるが、データ汚染と記憶の重大な問題はしばしば誇張される。
本稿では, 条件分布モデリングの統計的テストや, 暗記を識別する4つのテストなど, 汚染度を評価するための様々な手法を紹介する。
論文 参考訳(メタデータ) (2024-03-11T12:07:13Z) - Large Language Models for Data Annotation: A Survey [58.454724454158814]
LLM(Advanced Large Language Models)の出現は、データアノテーションのプロセスに革命を起こし、自動化する前例のない機会を提供する。
この調査は、LLMベースのデータ、LLM生成アノテーションの評価、LLM生成アノテーションによる学習の3つの中核的な側面に貢献する。
重要なガイドとして、この調査は、研究者や実践者がデータアノテーションのための最新のLCMの可能性を探究することを目的としている。
論文 参考訳(メタデータ) (2024-02-21T00:44:04Z) - Time Series Forecasting with LLMs: Understanding and Enhancing Model
Capabilities [39.874834611685124]
大規模言語モデル(LLM)は近年,急速な発展を遂げた多くの分野に適用されている。
本稿では,LLMがパターンや傾向を明確にした時系列予測に優れるが,周期性に欠けるデータセットでは課題に直面していることを示す。
さらに, 入力戦略について検討し, 外部知識を取り入れ, 自然言語のパラフレーズを取り入れた場合, 時系列におけるLLMの予測性能に肯定的な影響が認められた。
論文 参考訳(メタデータ) (2024-02-16T17:15:28Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Task Contamination: Language Models May Not Be Few-Shot Anymore [9.696290050028237]
大きな言語モデル(LLM)は、様々なゼロショットおよび少数ショットタスクで素晴らしいパフォーマンスを提供する。
しかし、ゼロショットや少数ショットの設定での成功はタスクの汚染に影響される可能性がある。
本稿では,LLMのゼロショット性能と少数ショット性能が,時間とともに時間とともにどのように変化したかを検討する。
論文 参考訳(メタデータ) (2023-12-26T21:17:46Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - llm-japanese-dataset v0: Construction of Japanese Chat Dataset for Large
Language Models and its Methodology [4.396516562723691]
本研究では,約840万レコードからなる大規模言語モデル(LLM)をチューニングするための日本語チャットデータセットを構築した。
その結果,このデータセットはLLMにとって有益である可能性が示唆された。
しかし、英語以外の言語でLLMを構築することの難しさも明らかにした。
論文 参考訳(メタデータ) (2023-05-22T04:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。