論文の概要: Elephants Never Forget: Testing Language Models for Memorization of
Tabular Data
- arxiv url: http://arxiv.org/abs/2403.06644v1
- Date: Mon, 11 Mar 2024 12:07:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 19:10:52.389850
- Title: Elephants Never Forget: Testing Language Models for Memorization of
Tabular Data
- Title(参考訳): elephants never forget: 表データの記憶のための言語モデルのテスト
- Authors: Sebastian Bordt, Harsha Nori, Rich Caruana
- Abstract要約: 大規模言語モデル (LLM) は様々なタスクに適用できるが、データ汚染と記憶の重大な問題はしばしば誇張される。
本稿では, 条件分布モデリングの統計的テストや, 暗記を識別する4つのテストなど, 汚染度を評価するための様々な手法を紹介する。
- 参考スコア(独自算出の注目度): 21.912611415307644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While many have shown how Large Language Models (LLMs) can be applied to a
diverse set of tasks, the critical issues of data contamination and
memorization are often glossed over. In this work, we address this concern for
tabular data. Starting with simple qualitative tests for whether an LLM knows
the names and values of features, we introduce a variety of different
techniques to assess the degrees of contamination, including statistical tests
for conditional distribution modeling and four tests that identify
memorization. Our investigation reveals that LLMs are pre-trained on many
popular tabular datasets. This exposure can lead to invalid performance
evaluation on downstream tasks because the LLMs have, in effect, been fit to
the test set. Interestingly, we also identify a regime where the language model
reproduces important statistics of the data, but fails to reproduce the dataset
verbatim. On these datasets, although seen during training, good performance on
downstream tasks might not be due to overfitting. Our findings underscore the
need for ensuring data integrity in machine learning tasks with LLMs. To
facilitate future research, we release an open-source tool that can perform
various tests for memorization
\url{https://github.com/interpretml/LLM-Tabular-Memorization-Checker}.
- Abstract(参考訳): 大規模言語モデル(LLM)が様々なタスクにどのように適用できるかを示すものが多いが、データ汚染と記憶の重大な問題はしばしば注目されている。
本稿では,表データに対する懸念について述べる。
llmが特徴の名前と値を知っているかどうかの単純な定性テストから始め、条件分布モデリングの統計的テストや記憶を識別する4つのテストなど、汚染度を評価する様々な手法を導入する。
調査の結果,LLMは多数の一般的な表付きデータセット上で事前学習されていることがわかった。
この露出は、LLMが事実上テストセットに適合するため、下流タスクにおける不正なパフォーマンス評価につながる可能性がある。
興味深いことに、言語モデルがデータの重要な統計を再現するが、データセットの冗長性を再現できない状態も特定する。
これらのデータセットでは、トレーニング中に見られるが、ダウンストリームタスクのパフォーマンスはオーバーフィットによるものではない。
LLMを用いた機械学習タスクにおいて,データの整合性を確保する必要性が示唆された。
今後の研究を容易にするため,メモリ化の様々なテストを行うオープンソースツールを,LLM-Tabular-Memorization-Checker} として公開した。
関連論文リスト
- On Inter-dataset Code Duplication and Data Leakage in Large Language
Models [5.704848262917858]
本稿では,データセット間の重複現象とその大規模言語モデル(LLM)評価への影響について検討する。
復号化プロセスを用いて,事前学習データセットと微調整データセットの交点を同定する。
CSNで事前学習した4つのモデルを微調整し、事前学習中に見いだされたサンプルと、その段階で見つからないモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-01-15T19:46:40Z) - Task Contamination: Language Models May Not Be Few-Shot Anymore [9.696290050028237]
大きな言語モデル(LLM)は、様々なゼロショットおよび少数ショットタスクで素晴らしいパフォーマンスを提供する。
しかし、ゼロショットや少数ショットの設定での成功はタスクの汚染に影響される可能性がある。
本稿では,LLMのゼロショット性能と少数ショット性能が,時間とともに時間とともにどのように変化したかを検討する。
論文 参考訳(メタデータ) (2023-12-26T21:17:46Z) - LLMaAA: Making Large Language Models as Active Annotators [32.57011151031332]
本稿では,大規模な言語モデルをアノテータとして利用し,それをアクティブな学習ループに配置して,アノテートを効率的に行うLLMaAAを提案する。
我々は、エンティティ認識と関係抽出という、2つの古典的NLPタスクの実験と分析を行う。
LLMaAAでは、LLM生成ラベルからトレーニングされたタスク固有のモデルが、数百の注釈付きサンプルで教師より優れている。
論文 参考訳(メタデータ) (2023-10-30T14:54:15Z) - Test-Time Self-Adaptive Small Language Models for Question Answering [63.91013329169796]
ラベルのないテストデータのみを用いて、より小さな自己適応型LMの能力を示し、検討する。
提案した自己適応戦略は,ベンチマークQAデータセットの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2023-10-20T06:49:32Z) - Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks [98.22864957942821]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - STUNT: Few-shot Tabular Learning with Self-generated Tasks from
Unlabeled Tables [64.0903766169603]
我々は,Unlabeled Tables (STUNT) からの自己生成タスクを作成した,数発のセミ教師付き学習のためのフレームワークを提案する。
私たちのキーとなるアイデアは、ランダムに選択された列をターゲットラベルとして扱うことで、多様なショットタスクを自己生成することです。
次に、メタラーニング手法を用いて、構築されたタスクで一般化可能な知識を学習する。
論文 参考訳(メタデータ) (2023-03-02T02:37:54Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。