Fugu-MT 論文翻訳(概要): From Teacher to Student: Tracking Memorization Through Model Distillation

論文の概要: From Teacher to Student: Tracking Memorization Through Model Distillation

arxiv url: http://arxiv.org/abs/2506.16170v1
Date: Thu, 19 Jun 2025 09:44:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-23 19:00:05.018204
Title: From Teacher to Student: Tracking Memorization Through Model Distillation
Title（参考訳）: 教師から学生へ:モデル蒸留による記憶の追跡
Authors: Simardeep Singh,
Abstract要約: 大規模言語モデル(LLM)は、トレーニングデータの一部を記憶することで知られており、プライバシとセキュリティに関する重要な懸念を提起している。本研究では,異なる知識蒸留法(KD)が,大規模な教師モデルをより小さな学生に蒸留した場合の微調整タスクデータの記憶にどのように影響するかを検討する。
参考スコア（独自算出の注目度）: 0.9065034043031668
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) are known to memorize parts of their training data, raising important concerns around privacy and security. While previous research has focused on studying memorization in pre-trained models, much less is known about how knowledge distillation (KD) affects memorization.In this study, we explore how different KD methods influence the memorization of fine-tuned task data when a large teacher model is distilled into smaller student variants.This study demonstrates that distilling a larger teacher model, fine-tuned on a dataset, into a smaller variant not only lowers computational costs and model size but also significantly reduces the memorization risks compared to standard fine-tuning approaches.
Abstract（参考訳）: 大規模言語モデル(LLM)は、トレーニングデータの一部を記憶することで知られており、プライバシとセキュリティに関する重要な懸念を提起している。本研究は, 事前学習モデルにおける暗記の研究に重点を置いているが, 知識蒸留(KD)が暗記にどう影響するかは分かっていない。本研究では, KD法の違いが, 大規模教師モデルがより小さな学生モデルに蒸留された際に, 微調整されたタスクデータの暗記にどのように影響するかを考察する。本研究では, より大規模な教師モデルであるデータセットを, 計算コストとモデルサイズを下げるだけでなく, 標準的な微調整アプローチと比較して, 暗記リスクを著しく低減させることを示した。

関連論文リスト

Memorization in Fine-Tuned Large Language Models [0.0]
本研究では,微調整大言語モデル(LLM)における暗記のメカニズムと要因について検討する。薬物移動イベントのPHEEデータセットを用いて、微調整プロセスの異なる側面がトレーニングデータを記憶するモデルの適合性にどのように影響するかを検討する。
論文参考訳（メタデータ） (2025-07-28T17:22:10Z)
Extending Memorization Dynamics in Pythia Models from Instance-Level Insights [8.476099189609565]
本稿では, Pythia モデルファミリーの様々なスケールおよびトレーニングステップにおける記憶の詳細な解析について述べる。粒度の計測値を用いて、モデルアーキテクチャ、データ特性、摂動が記憶パターンにどのように影響するかを検討する。
論文参考訳（メタデータ） (2025-06-14T03:02:42Z)
Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。 UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文参考訳（メタデータ） (2025-04-19T14:08:56Z)
CustomKD: Customizing Large Vision Foundation for Edge Model Improvement via Knowledge Distillation [57.91828170220308]
本稿では,大規模視覚基盤モデル(LVFM)を効果的に活用し,エッジモデルの性能を向上させる知識蒸留手法であるCustomKDを提案する。我々のシンプルで効果的なCustomKDは、LVFMに固有のよく一般化された特徴を、モデルの違いを減らすために、与えられた学生モデルにカスタマイズする。
論文参考訳（メタデータ） (2025-03-23T23:53:08Z)
Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。 OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文参考訳（メタデータ） (2024-09-19T07:05:26Z)
Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文参考訳（メタデータ） (2024-06-06T17:59:09Z)
Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。 CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文参考訳（メタデータ） (2023-11-03T21:55:33Z)
Exploring Memorization in Fine-tuned Language Models [53.52403444655213]
我々は,タスク間の微調整中に,言語モデルの暗記を探索する最初の包括的分析を行う。オープンソースと、さまざまなタスクにまたがる独自の微調整LMによる研究は、暗記が様々な微調整タスクの間に強い相違を示すことを示している。本稿では,この課題の相違をスパース符号化理論を用いて直感的に説明し,暗記と注目スコア分布との強い相関関係を明らかにする。
論文参考訳（メタデータ） (2023-10-10T15:41:26Z)
Emergent and Predictable Memorization in Large Language Models [23.567027014457775]
メモリ化、あるいはトレーニングデータから全シーケンスを出力する大規模言語モデルの傾向は、安全に言語モデルをデプロイする上で重要な関心事である。我々は,大規模モデルのフルトレインタイム前にどのシーケンスを記憶するかを,低速トライアルの実行時の記憶挙動を外挿することによって予測する。モデルとデータ間のメモリ化スコアの分布に関する新たな発見を提供する。
論文参考訳（メタデータ） (2023-04-21T17:58:31Z)
Understanding Unintended Memorization in Federated Learning [5.32880378510767]
フェデレートラーニングの異なるコンポーネントが意図しない暗記を減らす上で重要な役割を担っていることを示す。また,意図しない記憶の少ないモデルにおいて,強いユーザレベルの差分プライバシ保証によるトレーニングが結果をもたらすことを示す。
論文参考訳（メタデータ） (2020-06-12T22:10:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。