論文の概要: Dataset distillation for memorized data: Soft labels can leak held-out teacher knowledge
- arxiv url: http://arxiv.org/abs/2506.14457v1
- Date: Tue, 17 Jun 2025 12:18:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.46337
- Title: Dataset distillation for memorized data: Soft labels can leak held-out teacher knowledge
- Title(参考訳): 記憶データのためのデータセット蒸留:ソフトラベルは教師の知識を漏洩させる
- Authors: Freya Behrens, Lenka Zdeborová,
- Abstract要約: 本研究では,教師からソフトラベルを訓練した学生が,保持された記憶データに対して,非自明な精度を達成できることを示す。
これらの現象は,ロジットの平滑化温度に強く依存していることが示される。
- 参考スコア(独自算出の注目度): 15.83382630515371
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dataset distillation aims to compress training data into fewer examples via a teacher, from which a student can learn effectively. While its success is often attributed to structure in the data, modern neural networks also memorize specific facts, but if and how such memorized information is can transferred in distillation settings remains less understood. In this work, we show that students trained on soft labels from teachers can achieve non-trivial accuracy on held-out memorized data they never directly observed. This effect persists on structured data when the teacher has not generalized.To analyze it in isolation, we consider finite random i.i.d. datasets where generalization is a priori impossible and a successful teacher fit implies pure memorization. Still, students can learn non-trivial information about the held-out data, in some cases up to perfect accuracy. In those settings, enough soft labels are available to recover the teacher functionally - the student matches the teacher's predictions on all possible inputs, including the held-out memorized data. We show that these phenomena strongly depend on the temperature with which the logits are smoothed, but persist across varying network capacities, architectures and dataset compositions.
- Abstract(参考訳): データセット蒸留は、教師を通してトレーニングデータを少ない例に圧縮することを目的としており、そこから学生が効果的に学習することができる。
その成功はしばしばデータの構造に起因するが、現代のニューラルネットワークは特定の事実を記憶している。
本研究は,教師のソフトラベルを訓練した学生が,直接観測されない記録データに対して,非自明な精度を達成できることを実証するものである。
この効果は教師が一般化していないときの構造化データに持続するが、教師が個別に解析するためには、一般化が優先不可能であり、成功した教師が適合する有限乱数データセットを考える。
それでも学生は、保持されているデータに関する非自明な情報を学ぶことができる。
これらの設定では、教師が機能的に回復するのに十分なソフトラベルが利用可能であり、学生は保持された記憶データを含むすべての入力に対して教師の予測と一致する。
これらの現象は,ロジットの平滑化温度に強く依存するが,ネットワーク容量,アーキテクチャ,データセット組成などによって持続することを示す。
関連論文リスト
- Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。
UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-04-19T14:08:56Z) - What is Dataset Distillation Learning? [32.99890244958794]
本研究では, 蒸留データの挙動, 代表性, ポイントワイド情報量について検討する。
蒸留したデータは、トレーニング中に実際のデータに代わるものとしては役に立たない。
蒸留データを解釈し、個別の蒸留データポイントが意味のある意味情報を含んでいることを示す枠組みを提供する。
論文 参考訳(メタデータ) (2024-06-06T17:28:56Z) - Distribution Shift Matters for Knowledge Distillation with Webly
Collected Images [91.66661969598755]
異なる分布間の知識蒸留という新しい手法を提案する(KD$3$)。
まず,教師ネットワークと学生ネットワークの併用予測に基づいて,Webで収集したデータから有用なトレーニングインスタンスを動的に選択する。
また、MixDistributionと呼ばれる新しいコントラスト学習ブロックを構築して、新しい分散のインスタンスアライメントで摂動データを生成します。
論文 参考訳(メタデータ) (2023-07-21T10:08:58Z) - Leveraging Unlabeled Data to Track Memorization [15.4909376515404]
本稿では,ニューラルネットワークの記憶度を計測する指標であるサセプティビリティー(Susceptibility)を提案する。
様々なアーキテクチャやデータセット上での記憶の追跡におけるメトリックの有効性を実証的に示す。
論文 参考訳(メタデータ) (2022-12-08T18:36:41Z) - Unified and Effective Ensemble Knowledge Distillation [92.67156911466397]
知識蒸留は、複数の教師モデルから知識を抽出し、それを1人の学生モデルにエンコードする。
既存の多くの手法は、ラベル付きデータのみに基づいて学生モデルを学習し、蒸留する。
本研究では,教師モデルのアンサンブルから,ラベル付きデータとラベルなしデータの両方から単一学生モデルを蒸留する,統一的で効果的なアンサンブル知識蒸留法を提案する。
論文 参考訳(メタデータ) (2022-04-01T16:15:39Z) - Understanding Memorization from the Perspective of Optimization via
Efficient Influence Estimation [54.899751055620904]
本研究では,実データ(実データ)とランダムラベル(ランダムデータ)のデータに対する,ターンオーバードロップアウトによる暗記現象,影響と暗記を効率的に推定する手法について検討する。
i) 実データと乱データの両方において、簡単な例(例えば、実データ)と難しい例(例えば、乱データ)の最適化は、ネットワークによって同時に行われる。
論文 参考訳(メタデータ) (2021-12-16T11:34:23Z) - Does Knowledge Distillation Really Work? [106.38447017262183]
知識蒸留は学生の一般化を改善することができるが、一般的に理解されているようには機能しない。
学生が教師に合わない理由として,最適化の難しさがあげられる。
論文 参考訳(メタデータ) (2021-06-10T17:44:02Z) - Distilling Double Descent [65.85258126760502]
蒸留とは、別の「教師」モデルでラベル付けされた例に基づいた「学生」モデルを訓練する技法である。
教師モデルが非常にパラメータ化されすぎている場合であっても、非常に大きな保持されていないラベル付きデータセットを使用することで、より"伝統的な"アプローチを上回るモデルが生まれます。
論文 参考訳(メタデータ) (2021-02-13T02:26:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。