Fugu-MT 論文翻訳(概要): Elephants Never Forget: Memorization and Learning of Tabular Data in Large Language Models

論文の概要: Elephants Never Forget: Memorization and Learning of Tabular Data in Large Language Models

arxiv url: http://arxiv.org/abs/2404.06209v1
Date: Tue, 9 Apr 2024 10:58:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-10 15:00:05.080238
Title: Elephants Never Forget: Memorization and Learning of Tabular Data in Large Language Models
Title（参考訳）: Elephants Never Forget:大規模言語モデルにおける語彙データの記憶と学習
Authors: Sebastian Bordt, Harsha Nori, Vanessa Rodrigues, Besmira Nushi, Rich Caruana,
Abstract要約: トレーニング中に、言語モデルがデータセットを見たかどうかを評価するために、さまざまなテクニックを導入します。トレーニング中に見られたデータセット上でのLLMの数発の学習性能と、トレーニング後にリリースされたデータセットのパフォーマンスを比較した。 LLMはトレーニング中に見られるデータセットよりも優れており、記憶が過度に適合することを示している。
参考スコア（独自算出の注目度）: 21.10890310571397
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While many have shown how Large Language Models (LLMs) can be applied to a diverse set of tasks, the critical issues of data contamination and memorization are often glossed over. In this work, we address this concern for tabular data. Specifically, we introduce a variety of different techniques to assess whether a language model has seen a tabular dataset during training. This investigation reveals that LLMs have memorized many popular tabular datasets verbatim. We then compare the few-shot learning performance of LLMs on datasets that were seen during training to the performance on datasets released after training. We find that LLMs perform better on datasets seen during training, indicating that memorization leads to overfitting. At the same time, LLMs show non-trivial performance on novel datasets and are surprisingly robust to data transformations. We then investigate the in-context statistical learning abilities of LLMs. Without fine-tuning, we find them to be limited. This suggests that much of the few-shot performance on novel datasets is due to the LLM's world knowledge. Overall, our results highlight the importance of testing whether an LLM has seen an evaluation dataset during pre-training. We make the exposure tests we developed available as the tabmemcheck Python package at https://github.com/interpretml/LLM-Tabular-Memorization-Checker
Abstract（参考訳）: 大規模言語モデル(LLM)が様々なタスクにどのように適用できるかを示すものが多いが、データ汚染と記憶の重大な問題は、しばしば誇張されている。本稿では,この問題に対処する。具体的には、トレーニング中に言語モデルが表のデータセットを見たかどうかを評価するために、さまざまなテクニックを紹介します。この調査は、LLMが多くの人気のある表のデータセットを冗長に記憶していることを示している。次に、トレーニング中に見られたデータセット上でのLLMの数発の学習性能と、トレーニング後にリリースされたデータセットのパフォーマンスを比較した。 LLMはトレーニング中に見られるデータセットよりも優れており、記憶が過度に適合することを示している。同時に、LLMは、新しいデータセットで非自明なパフォーマンスを示し、驚くほどデータ変換に堅牢である。次に,LLMの文脈内統計的学習能力について検討する。微調整なしでは、それらに制限がある。これは、新しいデータセットにおける数ショットのパフォーマンスの大部分は、LLMの世界的知識によるものであることを示唆している。本研究の結果は,LLMが事前学習中に評価データセットを見たかどうかをテストすることの重要性を強調した。われわれが開発した露出テストは、https://github.com/interpretml/LLM-Tabular-Memorization-CheckerにあるTabmemcheck Pythonパッケージで利用可能です。

関連論文リスト

Robustness is Important: Limitations of LLMs for Data Fitting [0.0]
大規模言語モデル(LLM)は幅広い設定に適用されている。データフィッティングにLLMを使うことの重大な脆弱性を特定する。変数名を変更することで、特定の設定で予測エラーのサイズを最大82%縮小することができる。
論文参考訳（メタデータ） (2025-08-27T04:46:05Z)
Information-Guided Identification of Training Data Imprint in (Proprietary) Large Language Models [52.439289085318634]
情報誘導プローブを用いて,プロプライエタリな大規模言語モデル (LLM) で知られているトレーニングデータを識別する方法を示す。我々の研究は、重要な観察の上に成り立っている: 高次数テキストパスは、暗記プローブにとって良い検索材料である。
論文参考訳（メタデータ） (2025-03-15T10:19:15Z)
Scalable In-Context Learning on Tabular Data via Retrieval-Augmented Large Language Models [15.603556124006479]
拡張性のあるTabICLのための検索拡張言語モデルを提案する。提案手法では,LLMのための検索誘導型命令チューニングと合わせて,検索モジュールをカスタマイズする。これにより、LLMはより大きなデータセットを効果的に活用することができ、69の広く認識されているデータセット間での大幅なパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2025-02-05T13:16:41Z)
Transfer Learning of Tabular Data by Finetuning Large Language Models [0.0]
本稿では,アプリケーションプログラミングインタフェース(API)の有効性と大規模言語モデル(LLM)の伝達学習について検討する。 LLM APIは、トークン化されたデータと命令で入力テキストプロンプトに応答するが、転送学習は、目標の分類タスクのためにLLMを微調整する。本稿では,10個のベンチマークデータセット上でのクロスデータ転送学習を実証するために,LLMのエンドツーエンドの微調整を提案する。
論文参考訳（メタデータ） (2025-01-12T16:23:18Z)
Towards Robust Evaluation of Unlearning in LLMs via Data Transformations [17.927224387698903]
大きな言語モデル(LLM)は、通常のNLPベースのユースケースからAIエージェントまで、幅広いアプリケーションで大きな成功を収めている。近年,マシン・アンラーニング(MUL)分野の研究が活発化している。主な考え方は、LLMが通常のタスクのパフォーマンス損失に悩まされることなく、特定の情報(例えば、PII)を忘れること(未学習)を強制することである。
論文参考訳（メタデータ） (2024-11-23T07:20:36Z)
Dynamic Uncertainty Ranking: Enhancing In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。 ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文参考訳（メタデータ） (2024-10-31T03:42:17Z)
Formality is Favored: Unraveling the Learning Preferences of Large Language Models on Data with Conflicting Knowledge [55.65162959527848]
大規模言語モデルは、多くの知識集約的なタスクにおいて優れたパフォーマンスを示している。しかし、事前学習データには誤解を招く傾向があり、矛盾する情報も含まれている。本研究では,LLMの学習嗜好を,矛盾する知識を持つデータに対して体系的に分析する。
論文参考訳（メタデータ） (2024-10-07T06:49:41Z)
Enhancing Discriminative Tasks by Guiding the Pre-trained Language Model with Large Language Model's Experience [4.814313782484443]
大規模言語モデル (LLM) と事前訓練型言語モデル (LM) は多くのソフトウェア工学のタスクにおいて驚くべき成功を収めた。我々は、LLMを用いてドメイン固有のデータを生成し、目標タスクにおける事前学習されたLMの性能を向上させる。
論文参考訳（メタデータ） (2024-08-16T06:37:59Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Large Language Models Memorize Sensor Datasets! Implications on Human Activity Recognition Research [0.23982628363233693]
本研究では,Large Language Models (LLMs) が,訓練中にHAR(Human Activity Recognition)データセットにアクセス可能かどうかを検討する。ほとんどの現代のLLMは、事実上(アクセス可能な)インターネット上でトレーニングされています。特にダフネットデータセットでは、GPT-4はセンサー読み取りのブロックを再現することができる。
論文参考訳（メタデータ） (2024-06-09T19:38:27Z)
LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。 LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。 GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文参考訳（メタデータ） (2024-03-22T08:57:07Z)
Elephants Never Forget: Testing Language Models for Memorization of Tabular Data [21.912611415307644]
大規模言語モデル (LLM) は様々なタスクに適用できるが、データ汚染と記憶の重大な問題はしばしば誇張される。本稿では, 条件分布モデリングの統計的テストや, 暗記を識別する4つのテストなど, 汚染度を評価するための様々な手法を紹介する。
論文参考訳（メタデータ） (2024-03-11T12:07:13Z)
Task Contamination: Language Models May Not Be Few-Shot Anymore [9.696290050028237]
大きな言語モデル(LLM)は、様々なゼロショットおよび少数ショットタスクで素晴らしいパフォーマンスを提供する。しかし、ゼロショットや少数ショットの設定での成功はタスクの汚染に影響される可能性がある。本稿では,LLMのゼロショット性能と少数ショット性能が,時間とともに時間とともにどのように変化したかを検討する。
論文参考訳（メタデータ） (2023-12-26T21:17:46Z)
TRACE: A Comprehensive Benchmark for Continual Learning in Large Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。 LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文参考訳（メタデータ） (2023-10-10T16:38:49Z)
CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文参考訳（メタデータ） (2023-09-17T23:49:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。