論文の概要: Unforgettable Generalization in Language Models
- arxiv url: http://arxiv.org/abs/2409.02228v1
- Date: Tue, 3 Sep 2024 18:55:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-05 21:27:46.256847
- Title: Unforgettable Generalization in Language Models
- Title(参考訳): 言語モデルにおける忘れられない一般化
- Authors: Eric Zhang, Leshem Chosen, Jacob Andreas,
- Abstract要約: 乱数ラベルの微調整によってタスクが忘れられた言語モデル(LM)の挙動について検討する。
しかしながら、タスク全体において、LM予測がトレーニングセット外の例で変化するかどうかにおいて、極めて可変性を示す。
- 参考スコア(独自算出の注目度): 46.98652406155007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When language models (LMs) are trained to forget (or "unlearn'') a skill, how precisely does their behavior change? We study the behavior of transformer LMs in which tasks have been forgotten via fine-tuning on randomized labels. Such LMs learn to generate near-random predictions for individual examples in the "training'' set used for forgetting. Across tasks, however, LMs exhibit extreme variability in whether LM predictions change on examples outside the training set. In some tasks (like entailment classification), forgetting generalizes robustly, and causes models to produce uninformative predictions on new task instances; in other tasks (like physical commonsense reasoning and scientific question answering) forgetting affects only the training examples, and models continue to perform the "forgotten'' task accurately even for examples very similar to those that appeared in the training set. Dataset difficulty is not predictive of whether a behavior can be forgotten; instead, generalization in forgetting is (weakly) predicted by the confidence of LMs' initial task predictions and the variability of LM representations of training data, with low confidence and low variability both associated with greater generalization. Perhaps most surprisingly, random-label forgetting appears to be somewhat insensitive to the contents of the training set: for example, models trained on science questions with random labels continue to answer other science questions accurately, but begin to produce random labels on entailment classification tasks. Finally, we show that even generalizable forgetting is shallow: linear probes trained on LMs' representations can still perform tasks reliably after forgetting. Our results highlight the difficulty and unpredictability of performing targeted skill removal from models via fine-tuning.
- Abstract(参考訳): 言語モデル(LM)が、スキルを忘れるように訓練された場合、それらの振る舞いはどのように正確に変化するのか?我々は、ランダムなラベルを微調整することでタスクを忘れたトランスフォーマーLMの振る舞いを研究する。そのようなLMは、忘れるために使われる「トレーニング」セットの個々の例に対するほぼランダムな予測を生成する。
しかしながら、タスク全体において、LM予測がトレーニングセット外の例で変化するかどうかにおいて、極めて可変性を示す。
あるタスク(例えば、包含分類など)では、忘れることが強固に一般化し、新しいタスクのインスタンスに非形式的予測をもたらす。他のタスク(例えば、物理的常識推論や科学的質問応答)では、忘れることがトレーニングの例だけに影響を与え、モデルはトレーニングセットに現れるものと非常に似た例でも、正確に「忘れられた」タスクを実行し続ける。
データセットの難しさは、ある行動が忘れられるかどうかを予測するものではなく、その代わりに、忘れることの一般化は、LMの初期のタスク予測の信頼とトレーニングデータのLM表現のばらつきによって予測される(弱く)。
例えば、ランダムラベルを用いた科学的な質問で訓練されたモデルは、他の科学的な質問に正確に答え続けるが、包括的分類タスクでランダムラベルを作成し始める。
LMの表現に基づいて訓練された線形プローブは、忘れた後に確実にタスクを実行することができる。
本研究の結果は,微調整によるモデルからの目標スキル除去の難しさと予測不可能さを浮き彫りにした。
関連論文リスト
- Pretraining Data Mixtures Enable Narrow Model Selection Capabilities in
Transformer Models [9.340409961107955]
トランスフォーマーモデルには、コンテキスト内学習(ICL)を実行する驚くべき能力がある
本研究は, トランスフォーマーが事前学習データ混合物間の橋渡しを効果的に行う方法について検討する。
以上の結果から,高容量シーケンスモデルの印象的なICL能力は,インダクティブバイアスよりも事前学習データ混合のカバレッジに密接に関係している可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-01T21:41:08Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Making Pre-trained Language Models both Task-solvers and
Self-calibrators [52.98858650625623]
プレトレーニング言語モデル(PLM)は、様々な現実世界のシステムのバックボーンとして機能する。
以前の研究は、余分なキャリブレーションタスクを導入することでこの問題を緩和できることを示している。
課題に対処するためのトレーニングアルゴリズムLM-TOASTを提案する。
論文 参考訳(メタデータ) (2023-07-21T02:51:41Z) - Inverse Scaling: When Bigger Isn't Better [80.42834197416444]
大規模言語モデル(LM)は、スケールの増大による全体的な損失に対する予測可能な改善を示している。
我々は,LMが逆スケーリングや,スケールの増大に伴うタスクパフォーマンスの悪化を示す可能性があるという主張を裏付ける証拠を示す。
論文 参考訳(メタデータ) (2023-06-15T20:11:23Z) - DiscrimLoss: A Universal Loss for Hard Samples and Incorrect Samples
Discrimination [28.599571524763785]
ラベルノイズ(すなわち不正なデータ)が与えられた場合、ディープニューラルネットワークはラベルノイズとモデル性能を徐々に記憶する。
この問題を解消するために,カリキュラム学習を提案し,学習サンプルを有意義な順序で順序付けすることで,モデル性能と一般化を向上させる。
論文 参考訳(メタデータ) (2022-08-21T13:38:55Z) - Uncertainty Estimation for Language Reward Models [5.33024001730262]
言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。
人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。
能動的学習とリスク-逆強化学習を用いてサンプル効率とロバスト性を向上させる不確実性推定によるこれらの問題に対処することを模索する。
論文 参考訳(メタデータ) (2022-03-14T20:13:21Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。