論文の概要: Demystifying Language Model Forgetting with Low-rank Example Associations
- arxiv url: http://arxiv.org/abs/2406.14026v4
- Date: Tue, 04 Feb 2025 02:07:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:56:07.208984
- Title: Demystifying Language Model Forgetting with Low-rank Example Associations
- Title(参考訳): 低ランクな実例アソシエーションによる言語モデルのデミスティフィケーション
- Authors: Xisen Jin, Xiang Ren,
- Abstract要約: 大規模言語モデル(LLM)は、微調整時に上流データを忘れることに悩まされる。
我々は、言語モデリングや微調整後の命令チューニングの上流の例で発生する忘れを実証的に分析する。
経験的関連性に対して行列補完を伴う未知のタスクを微調整した場合,上流の例を忘れないように予測する。
- 参考スコア(独自算出の注目度): 38.93348195407474
- License:
- Abstract: Large Language models (LLMs) suffer from forgetting of upstream data when fine-tuned. Despite efforts on mitigating forgetting, few have investigated whether, and how forgotten upstream examples are dependent on newly learned tasks. Insights on such dependencies enable efficient and targeted mitigation of forgetting. In this paper, we empirically analyze forgetting that occurs in $N$ upstream examples of language modeling or instruction-tuning after fine-tuning LLMs on one of $M$ new tasks, visualized in $M\times N$ matrices. We show that the matrices are often well-approximated with low-rank matrices, indicating the dominance of simple associations between the learned tasks and forgotten upstream examples. Leveraging the analysis, we predict forgetting of upstream examples when fine-tuning on unseen tasks with matrix completion over the empirical associations. This enables fast identification of most forgotten examples without expensive inference on the entire upstream data. The approach, despite simplicity, outperforms prior approaches that learn semantic relationships of learned tasks and upstream examples with LMs for predicting forgetting. We demonstrate the practical utility of our analysis by showing statistically significantly reduced forgetting as we upweight predicted examples for replay at fine-tuning. Project page: https://inklab.usc.edu/lm-forgetting-prediction/
- Abstract(参考訳): 大規模言語モデル(LLM)は、微調整時に上流データを忘れることに悩まされる。
忘れを軽減しようとする努力にもかかわらず、上流の事例が新しく学んだタスクに依存しているかどうかを調査する者はほとんどいない。
このような依存関係に対する洞察は、効率的で目標とする忘れの軽減を可能にします。
本稿では,M$新しいタスクの1つに,言語モデリングや命令チューニングの上流で発生した忘れを,M$N$行列で視覚化した上で実証的に解析する。
行列は低ランク行列でよく近似されることがよく見られ、学習課題と上流の例を忘れた単純な関連性の優位性を示す。
この分析を応用して、実証的な関連性に対して行列完備を伴う未知のタスクを微調整した場合、上流の例を忘れることを予測する。
これにより、上流データ全体に対する高価な推測なしで、忘れられたほとんどの例を素早く識別できる。
この手法は単純さに拘わらず、学習したタスクのセマンティックな関係を学習する従来のアプローチと、忘れを予測するためのLMとの上流の例より優れている。
我々は,微調整時のリプレイの重み付け例を予測して,統計的に忘れを著しく減らし,分析の実用性を実証した。
プロジェクトページ: https://inklab.usc.edu/lm-forgetting-prediction/
関連論文リスト
- "In-Context Learning" or: How I learned to stop worrying and love "Applied Information Retrieval" [9.264121218481133]
In-context Learning (ICL)は、自然言語処理(NLP)の新しいパラダイムとして進化してきた。
ICLは概念的には$k$-NNのような非パラメトリックアプローチに似ている。
トレーニングセットから取得したICLの同様の例は、IRのコレクションから取得したドキュメントのセットに関連している。
論文 参考訳(メタデータ) (2024-05-02T09:25:24Z) - LLMaAA: Making Large Language Models as Active Annotators [32.57011151031332]
本稿では,大規模な言語モデルをアノテータとして利用し,それをアクティブな学習ループに配置して,アノテートを効率的に行うLLMaAAを提案する。
我々は、エンティティ認識と関係抽出という、2つの古典的NLPタスクの実験と分析を行う。
LLMaAAでは、LLM生成ラベルからトレーニングされたタスク固有のモデルが、数百の注釈付きサンプルで教師より優れている。
論文 参考訳(メタデータ) (2023-10-30T14:54:15Z) - Not All Demonstration Examples are Equally Beneficial: Reweighting
Demonstration Examples for In-Context Learning [32.29118942982609]
大規模言語モデル(LLM)は、最近、モデルをスケールアップしてICL(In-Context Learning)能力を獲得した。
本稿では,実演例における平均重量の決め方とICLにおける適用方法について検討する。
8つのテキスト分類タスクの実験結果から,本手法は従来のICLよりも高い性能を示した。
論文 参考訳(メタデータ) (2023-10-12T13:15:11Z) - RetICL: Sequential Retrieval of In-Context Examples with Reinforcement Learning [53.52699766206808]
In-Context Learning (RetICL) のための検索式を提案する。
RetICLは数学用語の問題解決と科学的質問応答のタスクに基づいて評価し,一貫した性能や一致,学習可能なベースラインを示す。
論文 参考訳(メタデータ) (2023-05-23T20:15:56Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - Characterizing Datapoints via Second-Split Forgetting [93.99363547536392]
我々は、オリジナルのトレーニング例が忘れられた後(もしあれば)のエポックを追跡する補足的メトリックである$$-second-$split$$forgetting$$$time$ (SSFT)を提案する。
例えば$mislabeled$の例はすぐに忘れられ、$rare$の例は比較的ゆっくりと忘れられています。
SSFTは、(i)間違ったラベル付きサンプルを識別し、その除去により一般化が向上し、(ii)障害モードに関する洞察を提供する。
論文 参考訳(メタデータ) (2022-10-26T21:03:46Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - An Empirical Study on Robustness to Spurious Correlations using
Pre-trained Language Models [13.891423075375512]
近年の研究では、BERTのような事前学習された言語モデルが、データセットの素早い相関性を改善することが示されている。
彼らの成功の鍵は、突発的な相関が保たない少数の反例から一般化することである。
以上の結果から,突発的な相関を克服する上で,データの多様性の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2020-07-14T02:34:59Z) - Robust and On-the-fly Dataset Denoising for Image Classification [72.10311040730815]
On-the-fly Data Denoising (ODD)は、間違ったラベルの例に対して堅牢だが、通常のトレーニングと比べて計算オーバーヘッドはほぼゼロである。
ODDはWebVisionやClothing1Mといった現実世界のデータセットを含む、幅広いデータセットで最先端の結果を達成することができる。
論文 参考訳(メタデータ) (2020-03-24T03:59:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。