論文の概要: Demystifying Forgetting in Language Model Fine-Tuning with Statistical Analysis of Example Associations
- arxiv url: http://arxiv.org/abs/2406.14026v1
- Date: Thu, 20 Jun 2024 06:46:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 15:10:05.743564
- Title: Demystifying Forgetting in Language Model Fine-Tuning with Statistical Analysis of Example Associations
- Title(参考訳): 言語モデルファインチューニングにおけるデミスティフィケーション・フォーミング : 実例関係の統計的分析による検討
- Authors: Xisen Jin, Xiang Ren,
- Abstract要約: 言語モデル(LM)は、デプロイされたLMシステムの微調整および破壊的安定性において、以前に学習された例を忘れることに悩まされていることが知られている。
本稿では,モデルが$M$新しいタスクを学習している間に,$N$上流の例で発生する忘れを経験的に分析する。
また、統計や視覚化によって、サンプルの特定のサブセットが忘れられるような、より複雑なパターンも明らかにします。
- 参考スコア(独自算出の注目度): 38.93348195407474
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Language models (LMs) are known to suffer from forgetting of previously learned examples when fine-tuned, breaking stability of deployed LM systems. Despite efforts on mitigating forgetting, few have investigated whether, and how forgotten upstream examples are associated with newly learned tasks. Insights on such associations enable efficient and targeted mitigation of forgetting. In this paper, we empirically analyze forgetting that occurs in $N$ upstream examples while the model learns $M$ new tasks and visualize their associations with a $M \times N$ matrix. We empirically demonstrate that the degree of forgetting can often be approximated by simple multiplicative contributions of the upstream examples and newly learned tasks. We also reveal more complicated patterns where specific subsets of examples are forgotten with statistics and visualization. Following our analysis, we predict forgetting that happens on upstream examples when learning a new task with matrix completion over the empirical associations, outperforming prior approaches that rely on trainable LMs. Project website: https://inklab.usc.edu/lm-forgetting-prediction/
- Abstract(参考訳): 言語モデル(LM)は、デプロイされたLMシステムの微調整および破壊的安定性において、以前に学習された例を忘れることに悩まされていることが知られている。
忘れを軽減しようとする努力にもかかわらず、上流の事例が新しく学習された課題にどのように関連しているかを調査する者は少ない。
このような関連性に関する洞察は, 効率的に, 目的を絞った忘れの緩和を可能にする。
本稿では,モデルが$M$新しいタスクを学習し,それらの関連を$M \times N$Matrixで視覚化しながら,$N$上流の例で発生する忘れを経験的に分析する。
我々は,上流の事例と新たに学習したタスクの単純な乗法的寄与によって,忘れる程度を近似できることを実証的に実証した。
また、統計や視覚化によって、サンプルの特定のサブセットが忘れられるような、より複雑なパターンも明らかにします。
実験結果から,実験結果から行列補完を伴う新しいタスクを学習し,トレーニング可能なLMに依存した先行手法よりも優れた精度で,上流の事例で発生することを予測した。
プロジェクトウェブサイト: https://inklab.usc.edu/lm-forgetting-prediction/
関連論文リスト
- "In-Context Learning" or: How I learned to stop worrying and love "Applied Information Retrieval" [9.264121218481133]
In-context Learning (ICL)は、自然言語処理(NLP)の新しいパラダイムとして進化してきた。
ICLは概念的には$k$-NNのような非パラメトリックアプローチに似ている。
トレーニングセットから取得したICLの同様の例は、IRのコレクションから取得したドキュメントのセットに関連している。
論文 参考訳(メタデータ) (2024-05-02T09:25:24Z) - LLMaAA: Making Large Language Models as Active Annotators [32.57011151031332]
本稿では,大規模な言語モデルをアノテータとして利用し,それをアクティブな学習ループに配置して,アノテートを効率的に行うLLMaAAを提案する。
我々は、エンティティ認識と関係抽出という、2つの古典的NLPタスクの実験と分析を行う。
LLMaAAでは、LLM生成ラベルからトレーニングされたタスク固有のモデルが、数百の注釈付きサンプルで教師より優れている。
論文 参考訳(メタデータ) (2023-10-30T14:54:15Z) - Not All Demonstration Examples are Equally Beneficial: Reweighting
Demonstration Examples for In-Context Learning [32.29118942982609]
大規模言語モデル(LLM)は、最近、モデルをスケールアップしてICL(In-Context Learning)能力を獲得した。
本稿では,実演例における平均重量の決め方とICLにおける適用方法について検討する。
8つのテキスト分類タスクの実験結果から,本手法は従来のICLよりも高い性能を示した。
論文 参考訳(メタデータ) (2023-10-12T13:15:11Z) - RetICL: Sequential Retrieval of In-Context Examples with Reinforcement Learning [53.52699766206808]
In-Context Learning (RetICL) のための検索式を提案する。
RetICLは数学用語の問題解決と科学的質問応答のタスクに基づいて評価し,一貫した性能や一致,学習可能なベースラインを示す。
論文 参考訳(メタデータ) (2023-05-23T20:15:56Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - Characterizing Datapoints via Second-Split Forgetting [93.99363547536392]
我々は、オリジナルのトレーニング例が忘れられた後(もしあれば)のエポックを追跡する補足的メトリックである$$-second-$split$$forgetting$$$time$ (SSFT)を提案する。
例えば$mislabeled$の例はすぐに忘れられ、$rare$の例は比較的ゆっくりと忘れられています。
SSFTは、(i)間違ったラベル付きサンプルを識別し、その除去により一般化が向上し、(ii)障害モードに関する洞察を提供する。
論文 参考訳(メタデータ) (2022-10-26T21:03:46Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - An Empirical Study on Robustness to Spurious Correlations using
Pre-trained Language Models [13.891423075375512]
近年の研究では、BERTのような事前学習された言語モデルが、データセットの素早い相関性を改善することが示されている。
彼らの成功の鍵は、突発的な相関が保たない少数の反例から一般化することである。
以上の結果から,突発的な相関を克服する上で,データの多様性の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2020-07-14T02:34:59Z) - Robust and On-the-fly Dataset Denoising for Image Classification [72.10311040730815]
On-the-fly Data Denoising (ODD)は、間違ったラベルの例に対して堅牢だが、通常のトレーニングと比べて計算オーバーヘッドはほぼゼロである。
ODDはWebVisionやClothing1Mといった現実世界のデータセットを含む、幅広いデータセットで最先端の結果を達成することができる。
論文 参考訳(メタデータ) (2020-03-24T03:59:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。