論文の概要: Early Detection and Reduction of Memorisation for Domain Adaptation and Instruction Tuning
- arxiv url: http://arxiv.org/abs/2510.11372v1
- Date: Mon, 13 Oct 2025 13:12:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.3718
- Title: Early Detection and Reduction of Memorisation for Domain Adaptation and Instruction Tuning
- Title(参考訳): ドメイン適応と命令調整のための暗記の早期検出と削減
- Authors: Dean L. Slack, Noura Al Moubayed,
- Abstract要約: 我々は、一般的な評価データセット上で1.4B-70BパラメータにまたがるPythia、Llama3、Mistralモデルを微調整する。
最初の数回は暗記が劇的に増加し、しばしば検証の難易度や評価性能が最適化される前に顕著に増加することが判明した。
我々は,n-gram-aware loss regulariserを導入し,最大40%までテストしたモデルファミリー全体の記憶を減少させることを示した。
- 参考スコア(独自算出の注目度): 4.145513103869504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although large language models excel across many tasks, they can memorise training data and thereby expose private or copyrighted text. Most defences target the pre-training stage, leaving memorisation during fine-tuning, especially for domain adaptation and instruction tuning, poorly understood. We fine-tune Pythia, Llama3, and Mistral models spanning 1.4B-70B parameters on common evaluation datasets and track verbatim memorisation throughout training. We find that memorisation increases dramatically in the first few epochs, often significantly before either validation perplexity or evaluation performance is optimised. We use a simple but effective n-gram memorisation score which reliably precedes verbatim memorisation; using it as an early-stopping criterion mitigates memorisation with minimal performance loss. Further, we introduce an n-gram-aware loss regulariser and show that it reduces memorisation across all model families tested by up to 40% while minimising evaluation performance trade-offs when compared to an existing memorisation mitigation strategy. These results yield practical, scalable insights into memorisation dynamics during language model fine-tuning.
- Abstract(参考訳): 大規模な言語モデルは多くのタスクにまたがって優れているが、トレーニングデータを記憶し、プライベートまたは著作権のあるテキストを公開することができる。
ほとんどの防衛は訓練前の段階を目標としており、微調整中の暗記は特にドメイン適応や命令チューニングには不十分である。
一般的な評価データセット上で1.4B-70BパラメータにまたがるPythia、Llama3、Mistralモデルを微調整し、トレーニングを通して動詞の暗記を追跡する。
最初の数回は暗記が劇的に増加し、しばしば検証の難易度や評価性能が最適化される前に顕著に増加することが判明した。
我々は、単純だが効果的な n-gram 記憶スコアを用いて、動詞の暗記に確実に先行し、それを早めの基準として使用することで、最小性能の損失で暗記を緩和する。
さらに, n-gram-aware loss regulariserを導入し, 既存の記憶緩和戦略と比較して, 評価性能のトレードオフを最小化しつつ, 最大40%までテストしたモデルファミリ間の記憶を減少させることを示した。
これらの結果は、言語モデルの微調整中の記憶力学に関する実践的でスケーラブルな洞察をもたらす。
関連論文リスト
- Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - EMP: Enhance Memory in Data Pruning [18.535687216213628]
近年,大規模言語と視覚モデルの性能は高いが,事前学習と微調整のコストが高いため,データセットプルーニングによる学習の高速化に向けた研究が進んでいる。
従来の手法では、サンプルの損失を評価基準として用い、トレーニングに最も「難しい」サンプルを選択することを目的としていた。
本稿では,データのメモリを増大させ,その性能を向上させることにより,高プルーニングレート下でのメモリ不足問題に対処するエンハンスメモリ・プルーニング(EMP)を提案する。
論文 参考訳(メタデータ) (2024-08-28T10:29:52Z) - Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。
覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。
本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:09Z) - Unintended Memorization in Large ASR Models, and How to Mitigate It [16.047859326721046]
大規模非回帰型自動音声認識(ASR)モデルにおける記憶の監査は困難である。
計算オーバーヘッドを余分に必要とせずに,大規模ASRモデルの記憶量を測定するための簡易な監査手法を設計する。
大規模分散トレーニングでは、各計算コアの平均勾配をクリップすることで、中立的なモデル品質と計算コストが維持されることを示す。
論文 参考訳(メタデータ) (2023-10-18T06:45:49Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - DPZero: Private Fine-Tuning of Language Models without Backpropagation [49.365749361283704]
DPZeroは、ほぼ次元に依存しない新しいゼロオーダーアルゴリズムである。
DPZeroのメモリ効率は、いくつかの下流タスクでプライベートに微調整されたRoBERTaとOPTで実証される。
論文 参考訳(メタデータ) (2023-10-14T18:42:56Z) - What do larger image classifiers memorise? [64.01325988398838]
トレーニング例は, モデルサイズにまたがって, 予想外の多彩な記憶軌跡を示す。
有効で一般的なモデル圧縮手法である知識蒸留は,記憶を阻害する傾向があり,一般化も改善する。
論文 参考訳(メタデータ) (2023-10-09T01:52:07Z) - Emergent and Predictable Memorization in Large Language Models [23.567027014457775]
メモリ化、あるいはトレーニングデータから全シーケンスを出力する大規模言語モデルの傾向は、安全に言語モデルをデプロイする上で重要な関心事である。
我々は,大規模モデルのフルトレインタイム前にどのシーケンスを記憶するかを,低速トライアルの実行時の記憶挙動を外挿することによって予測する。
モデルとデータ間のメモリ化スコアの分布に関する新たな発見を提供する。
論文 参考訳(メタデータ) (2023-04-21T17:58:31Z) - An Evaluation of Memory Optimization Methods for Training Neural
Networks [12.534553433992606]
メモリ最適化手法(MOM)の開発は,大規模モデルのトレーニングにおいて発生するメモリボトルネックに対処するためのソリューションとして登場した。
各種MOMの実用的価値を検討するため,システムの観点から既存の文献を徹底的に分析した。
分析の結果,MOMの有効性を効果的に評価するための標準化された指標が欠如していることが示唆された。
論文 参考訳(メタデータ) (2023-03-26T05:40:35Z) - Saliency-Augmented Memory Completion for Continual Learning [8.243137410556495]
忘れる方法は、継続的な学習に対処しなければならない問題である。
本稿では,連続学習のための新たなサリエンシ強化メモリ補完フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-26T18:06:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。