論文の概要: Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning
- arxiv url: http://arxiv.org/abs/2501.14315v2
- Date: Tue, 20 May 2025 14:10:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:51.675977
- Title: Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning
- Title(参考訳): LLMファインチューニングにおける低雑音トケラーニングによるファイン・フォーミングの軽減
- Authors: Chao-Chung Wu, Zhi Rui Tam, Chieh-Yen Lin, Yun-Nung Chen, Shao-Hua Sun, Hung-yi Lee,
- Abstract要約: LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。
微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
- 参考スコア(独自算出の注目度): 61.99353167168545
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Maintaining consistent model performance across domains is a fundamental challenge in machine learning. While recent work has explored using LLM-generated data for fine-tuning, its impact on cross-domain generalization remains poorly understood. This paper presents a systematic analysis revealing that fine-tuning with LLM-generated data not only improves target task performance but also reduces non-target task degradation compared to fine-tuning with ground truth data. Through analyzing the data sequence in tasks of various domains, we demonstrate that this enhancement of non-target task robustness stems from the reduction of high perplexity tokens found in LLM-generated sequences. Following our findings, we showed that masking high perplexity tokens in ground truth training data achieves similar non-target task performance preservation, comparable to using LLM-generated data. Extensive experiments across different model families and scales, including Gemma 2 IT 2B, Llama 3 8B Instruct, and 3 additional models, agree with our findings. To the best of our knowledge, this is the first work to provide an empirical explanation based on token perplexity reduction to mitigate catastrophic forgetting in LLMs after fine-tuning, offering valuable insights for developing more robust fine-tuning strategies.
- Abstract(参考訳): ドメイン間の一貫性のあるモデルパフォーマンスを維持することは、機械学習における根本的な課題である。
最近の研究は、LLM生成データによる微調整について検討しているが、ドメイン間の一般化への影響はよく分かっていない。
本稿では,LLM生成データによる微調整が目標タスク性能を向上するだけでなく,地中真理データによる微調整に比べて非目標タスク劣化を低減することを明らかにする。
様々な領域のタスクにおけるデータシーケンスを解析することにより、この非ターゲットタスクの堅牢性の向上は、LLM生成シーケンスで見られる高いパープレキシティトークンの削減に起因することを実証する。
その結果,地中真理学習データにおける高難易度トークンのマスキングは,LLM生成データに匹敵する非目標タスク性能の保存を達成できることが判明した。
Gemma 2 IT 2B,Llama 3 8B Instruct,および3つの追加モデルを含む,さまざまなモデルファミリおよびスケールにわたる大規模な実験は,我々の発見に賛同する。
我々の知る限り、これはトークンの難易度低減に基づく実証的な説明を提供することで、より堅牢な微調整戦略を開発する上で有用な洞察を提供する、微調整後のLSMにおける破滅的な忘れを緩和する最初の試みである。
関連論文リスト
- An Analyst-Inspector Framework for Evaluating Reproducibility of LLMs in Data Science [5.064778712920176]
LLM(Large Language Models)は、コード生成によるデータサイエンスタスクの可能性を示している。
LLM生成データサイエンスを自動評価・実施する新しいアナリスト・インスペクタフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-23T01:15:50Z) - ThinkBench: Dynamic Out-of-Distribution Evaluation for Robust LLM Reasoning [61.750373974799366]
ThinkBenchは、大規模言語モデル(LLM)の評価フレームワークである。
推論モデルと非推論モデルの評価を統一する。
ThinkBenchは、LLMの信頼性評価を効果的に提供し、データ汚染の影響を低減する。
論文 参考訳(メタデータ) (2025-02-22T15:41:51Z) - RLS3: RL-Based Synthetic Sample Selection to Enhance Spatial Reasoning in Vision-Language Models for Indoor Autonomous Perception [20.01853641155509]
自然言語命令に基づくアプリケーション固有の視覚的グラウンドニングのための視覚言語モデル(VLM)は、学習可能な自律システムにおいて最も一般的なアプローチの1つである。
本稿では, 強化学習(RL)エージェントと統合することにより, VLMファインチューニングを改善するための新しい一般化可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-31T04:30:42Z) - LLM-Forest: Ensemble Learning of LLMs with Graph-Augmented Prompts for Data Imputation [37.14344322899091]
巨大なコーパスで訓練された大規模言語モデル(LLM)は、データ生成に強い可能性を示している。
筆者らは,自信に基づく重み付き投票を伴う,数発の学習用LLM"ツリー"の"フォレスト"を導入した,新しいフレームワーク LLM-Forest を提案する。
このフレームワークは、2部情報グラフという新しい概念に基づいて構築され、高品質な関連する隣り合うエントリを識別する。
論文 参考訳(メタデータ) (2024-10-28T20:42:46Z) - Enhancing Temporal Understanding in LLMs for Semi-structured Tables [50.59009084277447]
我々は、大規模言語モデル(LLM)の特定の限界を特定するために、時間的データセットの包括的な分析を行う。
調査の結果,時間的時間的質問応答に特化したデータセットであるTempTabQAが強化された。
我々は,この領域におけるLLM機能を強化するために,新しいアプローチC.L.E.A.R.を導入する。
論文 参考訳(メタデータ) (2024-07-22T20:13:10Z) - Learning on Graphs with Large Language Models(LLMs): A Deep Dive into Model Robustness [39.57155321515097]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示している。
LLMがグラフ上での学習において堅牢性を示すかどうかは不明である。
論文 参考訳(メタデータ) (2024-07-16T09:05:31Z) - PISTOL: Dataset Compilation Pipeline for Structural Unlearning of LLMs [31.16117964915814]
訓練済みまたは微調整済みのモデルに格納された特定のデータを消去しようとする機械学習は、LLMにとって重要な保護措置として登場した。
構造的アンラーニング手法の開発を容易にするため,マルチシナリオデータセットをコンパイルするパイプラインであるPISTOLを提案する。
Llama2-7BモデルとMistral-7Bモデルの両方で4つの異なる未学習手法を用いてベンチマークを行う。
論文 参考訳(メタデータ) (2024-06-24T17:22:36Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z) - How Good Are LLMs at Out-of-Distribution Detection? [13.35571704613836]
アウト・オブ・ディストリビューション(OOD)検出は、機械学習(ML)モデルの信頼性を高める上で重要な役割を果たす。
本稿では,大規模言語モデル(LLM)の領域におけるOOD検出の先駆的実証研究について述べる。
論文 参考訳(メタデータ) (2023-08-20T13:15:18Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。