論文の概要: Unveiling Over-Memorization in Finetuning LLMs for Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2508.04117v1
- Date: Wed, 06 Aug 2025 06:34:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.567764
- Title: Unveiling Over-Memorization in Finetuning LLMs for Reasoning Tasks
- Title(参考訳): 追従作業のための微視的LLMにおける過度記憶の解き方
- Authors: Zhiwen Ruan, Yun Chen, Yutao Hou, Peng Li, Yang Liu, Guanhua Chen,
- Abstract要約: 事前訓練された大言語モデル (LLM) はラベル付きデータで微調整され、人間の値に適合する。
本研究では,LLMファインタニングの学習ダイナミクスを推論タスクで研究し,その過記憶現象を明らかにする。
記憶過剰なモデルでは、通常のモデルと同等のテスト精度を示すが、頑健さの低下、分布外一般化の低下、生成の多様性の低下に悩まされている。
- 参考スコア(独自算出の注目度): 12.00585546066413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The pretrained large language models (LLMs) are finetuned with labeled data for better instruction following ability and alignment with human values. In this paper, we study the learning dynamics of LLM finetuning on reasoning tasks and reveal the uncovered over-memorization phenomenon during a specific stage of LLM finetuning. At this stage, the LLMs have excessively memorized training data and exhibit high test perplexity while maintaining good test accuracy. We investigate the conditions that lead to LLM over-memorization and find that training epochs and large learning rates contribute to this issue. Although models with over-memorization demonstrate comparable test accuracy to normal models, they suffer from reduced robustness, poor out-of-distribution generalization, and decreased generation diversity. Our experiments unveil the over-memorization to be broadly applicable across different tasks, models, and finetuning methods. Our research highlights that overparameterized, extensively finetuned LLMs exhibit unique learning dynamics distinct from traditional machine learning models. Based on our observations of over-memorization, we provide recommendations on checkpoint and learning rate selection during finetuning.
- Abstract(参考訳): 事前訓練された大言語モデル (LLM) はラベル付きデータで微調整され、人間の値に適合する。
本稿では, LLMファインタニングの学習ダイナミクスを推論タスクで研究し, LLMファインタニングの特定の段階での過記憶現象を明らかにする。
この段階では、LLMは過剰なトレーニングデータを記憶し、良好なテスト精度を維持しながら高いテストパープレキシティを示す。
LLMの過度記憶に繋がる条件について検討し、この問題にトレーニングのエポックスと大きな学習率が寄与していることを見出した。
記憶過剰なモデルでは、通常のモデルと同等のテスト精度を示すが、頑健さの低下、分布外一般化の低下、生成の多様性の低下に悩まされている。
我々の実験は、様々なタスク、モデル、微調整方法に広く適用できるオーバー・メモリ化を明らかにした。
我々の研究は、過度にパラメータ化され、広範囲に微調整されたLLMが、従来の機械学習モデルとは異なる独自の学習ダイナミクスを示すことを強調している。
過記憶化の観察に基づいて、微調整中のチェックポイントと学習率の選択について推奨する。
関連論文リスト
- Test-Time Learning for Large Language Models [33.11605667376906]
大規模言語モデル(LLM)のためのテスト時間学習(TTL)パラダイムを提案する。
LLMはテスト中にラベルなしのテストデータのみを使用してターゲットドメインに動的に適応する。
TLMはドメイン知識適応における元のLLMと比較して少なくとも20%性能が向上することを示す。
論文 参考訳(メタデータ) (2025-05-27T02:18:59Z) - Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning [104.27224674122313]
微調整MLLMは、特定の下流タスクのパフォーマンスを改善するための一般的なプラクティスとなっている。
一般化と特殊化のトレードオフのバランスをとるために,事前学習と微調整の両方におけるパラメータの重要度を測定することを提案する。
論文 参考訳(メタデータ) (2024-11-17T01:16:37Z) - Dynamic Uncertainty Ranking: Enhancing Retrieval-Augmented In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。
専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。
ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T03:42:17Z) - Get Confused Cautiously: Textual Sequence Memorization Erasure with Selective Entropy Maximization [17.20276556057748]
大規模言語モデル(LLM)は、トレーニングセットの冗長性からいくつかのテキストシーケンスを暗記し、引用することが発見されている。
このTSM(Textual Sequence Memorization)現象は、特定の記憶されたテキストを生成するのを防ぐために、LCM出力の調整を要求される。
TSM消去のための既存の方法は、モデルユーティリティを実質的に損なうことなく、大量の記憶されたサンプルを忘れることができない。
論文 参考訳(メタデータ) (2024-08-09T10:26:11Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Investigating Automatic Scoring and Feedback using Large Language Models [46.1232919707345]
本稿では,PEFTに基づく量子化モデルの有効性について検討する。
その結果, 微調整LDMによる評価は精度が高く, 平均的に3%未満の誤差が得られた。
論文 参考訳(メタデータ) (2024-05-01T16:13:54Z) - Temporal Scaling Law for Large Language Models [57.83580734589091]
本稿では,LLMの試験損失が,トレーニングステップのスケールアップとともにどのように進展するかを考察する,時間スケーリング法の概念を提案する。
テスト損失全体を粗い粒度でモデル化するのとは対照的に、私たちはそれを分解して、各トークン位置のきめ細かいテスト損失に飛び込みます。
動的双曲法則におけるパラメータの時間的パターンを研究することにより、より正確な時間的スケーリング法則を導出する。
論文 参考訳(メタデータ) (2024-04-27T05:49:11Z) - Rethinking Learning Rate Tuning in the Era of Large Language Models [11.87985768634266]
大規模言語モデル(LLM)は、人間のような優れた予測性能を達成するために、近年のディープラーニングの成功を表している。
ファインチューニングを活用して、様々な現実世界のアプリケーションにLLMを適用するための主要な戦略となっている。
既存の学習率ポリシは、主に従来のディープニューラルネットワーク(DNN)のトレーニング用に設計されている。
論文 参考訳(メタデータ) (2023-09-16T03:37:00Z) - An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning [70.48605869773814]
カタストロフィック・ナッシング(英: Catastrophic forgetting、CF)は、機械学習において、モデルが以前に学習した情報を忘れたときに発生する現象である。
本研究では,大規模言語モデルにおける連続的調律時の忘れ現象を実験的に評価する。
論文 参考訳(メタデータ) (2023-08-17T02:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。