論文の概要: DIET: Learning to Distill Dataset Continually for Recommender Systems
- arxiv url: http://arxiv.org/abs/2603.24958v1
- Date: Thu, 26 Mar 2026 02:50:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.060272
- Title: DIET: Learning to Distill Dataset Continually for Recommender Systems
- Title(参考訳): DIET: Recommender システムのためのデータセットを継続的に拡張する学習
- Authors: Jiaqing Zhang, Hao Wang, Mingjia Yin, Bo Chen, Qinglin Jia, Rui Zhou, Ruiming Tang, ChaoYi Ma, Enhong Chen,
- Abstract要約: ディープラーニングモデルは、大規模で継続的な成長するストリーミング行動ログに依存する、継続的な学習パラダイムの下でトレーニングされる。
大規模なプラットフォームでは、アーキテクチャ比較やイテレーションのために、完全な履歴データ上でモデルを再トレーニングするのは、極めて高価であり、モデル開発を著しく遅くする。
我々は,この問題を,レコメンデータシステムのためのEmphstreaming dataset distillationとして定式化し,トレーニングクリティカルな信号を保持しながら,ストリーミングデータとともに進化するコンパクトな蒸留データセットを維持する統一フレームワークである textbfDIET を提案する。
- 参考スコア(独自算出の注目度): 69.68271683922536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern deep recommender models are trained under a continual learning paradigm, relying on massive and continuously growing streaming behavioral logs. In large-scale platforms, retraining models on full historical data for architecture comparison or iteration is prohibitively expensive, severely slowing down model development. This challenge calls for data-efficient approaches that can faithfully approximate full-data training behavior without repeatedly processing the entire evolving data stream. We formulate this problem as \emph{streaming dataset distillation for recommender systems} and propose \textbf{DIET}, a unified framework that maintains a compact distilled dataset which evolves alongside streaming data while preserving training-critical signals. Unlike existing dataset distillation methods that construct a static distilled set, DIET models distilled data as an evolving training memory and updates it in a stage-wise manner to remain aligned with long-term training dynamics. DIET enables effective continual distillation through principled initialization from influential samples and selective updates guided by influence-aware memory addressing within a bi-level optimization framework. Experiments on large-scale recommendation benchmarks demonstrate that DIET compresses training data to as little as \textbf{1-2\%} of the original size while preserving performance trends consistent with full-data training, reducing model iteration cost by up to \textbf{60$\times$}. Moreover, the distilled datasets produced by DIET generalize well across different model architectures, highlighting streaming dataset distillation as a scalable and reusable data foundation for recommender system development.
- Abstract(参考訳): 現代のディープレコメンデータモデルは、大規模で継続的な成長するストリーミング行動ログに依存して、継続的な学習パラダイムの下でトレーニングされています。
大規模なプラットフォームでは、アーキテクチャ比較やイテレーションのために、完全な履歴データ上でモデルを再トレーニングするのは、極めて高価であり、モデル開発を著しく遅くする。
この課題は、進化するデータストリーム全体を繰り返し処理することなく、フルデータのトレーニング動作を忠実に近似できる、データ効率のよいアプローチを要求する。
我々は,この問題をレコメンデータシステムのための「emph{streaming dataset distillation」として定式化し,トレーニングクリティカルな信号を保持しながら,ストリーミングデータとともに進化するコンパクトな蒸留データセットを維持する統一フレームワークである「textbf{DIET}」を提案する。
静的蒸留セットを構成する既存のデータセット蒸留法とは異なり、DIETはデータを進化したトレーニングメモリとしてモデル化し、長期のトレーニングダイナミクスに適合するように段階的に更新する。
DIETは、2レベル最適化フレームワーク内で、影響力のあるサンプルから原則化された初期化と、影響を意識したメモリアドレスによってガイドされる選択的な更新を通じて、効果的な連続蒸留を可能にする。
大規模なレコメンデーションベンチマークの実験では、DIETはトレーニングデータを元のサイズの \textbf{1-2\%} まで圧縮し、フルデータトレーニングと一貫性のあるパフォーマンストレンドを保ち、モデルイテレーションコストを \textbf{60$\times$} まで削減することを示した。
さらに、DIETによって生成された蒸留データセットは、さまざまなモデルアーキテクチャにわたってよく一般化され、ストリーミングデータセットの蒸留を、よりレコメンデーションなシステム開発のためのスケーラブルで再利用可能なデータ基盤として強調する。
関連論文リスト
- Can Small Training Runs Reliably Guide Data Curation? Rethinking Proxy-Model Practice [109.9635246405237]
データ品質に関する実験結果が、ハイパーパラメータのトレーニングに微調整を加えることで、反転できることを示す。
評価プロトコルに簡単なパッチを導入し、プロキシモデルのトレーニングに学習率を削減した。
実験により,データキュレーションの4つの重要な次元をカバーする23種類のデータレシピに対して,このアプローチを検証した。
論文 参考訳(メタデータ) (2025-12-30T23:02:44Z) - Restoration Score Distillation: From Corrupted Diffusion Pretraining to One-Step High-Quality Generation [82.39763984380625]
Score Distillation (DSD) の原理的一般化である textitRestoration Score Distillation (RSD) を提案する。
RSDは、ぼやけた画像、不完全画像、低解像度画像など、広範囲の汚職タイプに対応している。
自然と科学の両方のデータセットの様々な復元作業において、教師モデルを一貫して上回っている。
論文 参考訳(メタデータ) (2025-05-19T17:21:03Z) - SCAN: Bootstrapping Contrastive Pre-training for Data Efficiency [10.555957282859]
本稿では,新しい動的ブートストラップ・データセット・プルーニング手法を提案する。
データ準備の後にデータセットの突然変異操作を行い、どちらも反復的な更新と動的更新を行う。
大規模画像テキストペアデータセットの7つのCLIPモデルと,ImageNetデータセットの2つのMoCoモデルを個別に事前トレーニングし,合計16の事前トレーニングモデルを得た。
論文 参考訳(メタデータ) (2024-11-14T01:53:17Z) - Self-supervised Dataset Distillation: A Good Compression Is All You Need [23.02066055996762]
SC-DDは, データセット蒸留のための簡易かつ効果的な自己教師圧縮フレームワークである。
提案したSC-DDは、より大規模なモデルを用いる場合、従来の最先端のデータセット蒸留法よりも優れている。
CIFAR-100, Tiny-ImageNet, ImageNet-1Kデータセットを用いて提案手法の優位性を示す実験を行った。
論文 参考訳(メタデータ) (2024-04-11T17:56:40Z) - Towards Adversarially Robust Dataset Distillation by Curvature Regularization [11.02948004359488]
データセット蒸留(DD)は、豊富な分散情報を保持しながら、データセットを元のサイズの分数に蒸留することができる。
この領域の最近の研究は、蒸留データセットで訓練されたモデルの精度向上に重点を置いている。
そこで本研究では, 従来の逆算法よりも計算オーバーヘッドの少ない蒸留プロセスに曲率正規化を組み込むことにより, この目標を達成する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-15T06:31:03Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - Accelerating Dataset Distillation via Model Augmentation [41.3027484667024]
本研究では,初期モデルとパラメータを用いた2つのモデル拡張手法を提案し,学習コストを大幅に削減した情報合成集合を学習する。
提案手法は,最先端の手法と同等の性能で,最大20倍の高速化を実現している。
論文 参考訳(メタデータ) (2022-12-12T07:36:05Z) - Dataset Distillation using Neural Feature Regression [32.53291298089172]
ニューラル・フィーチャー・レグレッション・アンド・プール(FRePo)を用いたデータセット蒸留アルゴリズムを開発した。
FRePoは、メモリ要件を桁違いに少なくし、以前の方法よりも2桁高速なトレーニングで最先端のパフォーマンスを実現している。
我々は,高品質な蒸留データにより,連続学習や会員推測防衛など,下流の様々な応用を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-06-01T19:02:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。