論文の概要: Dataset Condensation for Recommendation
- arxiv url: http://arxiv.org/abs/2310.01038v2
- Date: Thu, 17 Oct 2024 18:35:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-17 10:00:38.157597
- Title: Dataset Condensation for Recommendation
- Title(参考訳): 勧告のためのデータセットの凝縮
- Authors: Jiahao Wu, Wenqi Fan, Jingfan Chen, Shengcai Liu, Qijiong Liu, Rui He, Qing Li, Ke Tang,
- Abstract要約: 推奨に適した軽量凝縮フレームワーク(DConRec)を提案する。
我々は,確率論的アプローチによる個別のユーザとイテムのインタラクションをモデル化し,ユーザの潜在的な嗜好を凝縮したデータセットに組み込むために,事前拡張モジュールを設計する。
複数の実世界のデータセットに対する実験結果から,本フレームワークの有効性と有効性が確認された。
- 参考スコア(独自算出の注目度): 29.239833773646975
- License:
- Abstract: Training recommendation models on large datasets requires significant time and resources. It is desired to construct concise yet informative datasets for efficient training. Recent advances in dataset condensation show promise in addressing this problem by synthesizing small datasets. However, applying existing methods of dataset condensation to recommendation has limitations: (1) they fail to generate discrete user-item interactions, and (2) they could not preserve users' potential preferences. To address the limitations, we propose a lightweight condensation framework tailored for recommendation (DConRec), focusing on condensing user-item historical interaction sets. Specifically, we model the discrete user-item interactions via a probabilistic approach and design a pre-augmentation module to incorporate the potential preferences of users into the condensed datasets. While the substantial size of datasets leads to costly optimization, we propose a lightweight policy gradient estimation to accelerate the data synthesis. Experimental results on multiple real-world datasets have demonstrated the effectiveness and efficiency of our framework. Besides, we provide a theoretical analysis of the provable convergence of DConRec. Our implementation is available at: https://github.com/JiahaoWuGit/DConRec.
- Abstract(参考訳): 大規模なデータセットでレコメンデーションモデルをトレーニングするには、かなりの時間とリソースが必要です。
効率的なトレーニングのために、簡潔だが有益なデータセットを構築することが望まれる。
データセット凝縮の最近の進歩は、小さなデータセットを合成することでこの問題に対処することを約束している。
しかし,既存のデータセット凝縮法を推薦に適用するには,(1)個別のユーザ・イテムインタラクションを生成できないこと,(2)ユーザの潜在的な嗜好を保存できないこと,といった制限がある。
この制約に対処するため、ユーザとイテムの歴史的相互作用集合の凝縮に着目した、リコメンデーションに適した軽量凝縮フレームワーク(DConRec)を提案する。
具体的には,確率論的アプローチによる個別のユーザ・イテムインタラクションをモデル化し,ユーザの潜在的な嗜好を凝縮したデータセットに組み込むための事前拡張モジュールを設計する。
データセットのかなりのサイズはコストのかかる最適化につながるが,データ合成を高速化する軽量なポリシー勾配推定法を提案する。
複数の実世界のデータセットに対する実験結果から,本フレームワークの有効性と有効性が確認された。
さらに、DConRecの証明可能な収束に関する理論的解析を行う。
私たちの実装は、https://github.com/JiahaoWuGit/DConRec.comで利用可能です。
関連論文リスト
- A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Hierarchical Features Matter: A Deep Exploration of GAN Priors for Improved Dataset Distillation [51.44054828384487]
階層的生成潜在蒸留(H-GLaD)と呼ばれる新しいパラメータ化法を提案する。
本手法はGAN内の階層層を系統的に探索する。
さらに,合成データセット評価に伴う計算負担を軽減するために,新しいクラス関連特徴距離尺度を導入する。
論文 参考訳(メタデータ) (2024-06-09T09:15:54Z) - CondTSF: One-line Plugin of Dataset Condensation for Time Series Forecasting [22.473436770730657]
データセット凝縮の目的は、合成データセットでトレーニングされたモデルが、完全なデータセットでトレーニングされたモデルと互換性を持って動作できることを保証することである。
分類において、合成データは、全データセットで訓練されたモデルと合成データセットで訓練されたモデルが同じ入力に対して同一のラベルを生成する場合、よく蒸留されると考えられる。
TS予測において, 合成データ蒸留の有効性は, モデル間の距離によって決定される。
論文 参考訳(メタデータ) (2024-06-04T09:18:20Z) - Elucidating the Design Space of Dataset Condensation [23.545641118984115]
データ中心学習の概念であるデータセット凝縮は、オリジナルのデータセットから合成バージョンに重要な属性を効率的に転送する。
本稿では,ソフトカテゴリ対応マッチングの実装のような,具体的な効果的な戦略を含む包括的な設計フレームワークを提案する。
我々のテストでは、ECCは最先端の精度を達成し、圧縮比0.78%に相当するResNet-18モデルでImageNet-1kで48.6%に達した。
論文 参考訳(メタデータ) (2024-04-21T18:19:27Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。
それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。
ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文 参考訳(メタデータ) (2022-07-20T03:54:05Z) - Condensing Graphs via One-Step Gradient Matching [50.07587238142548]
ネットワーク重みを訓練せずに1ステップのみの勾配マッチングを行う1ステップ勾配マッチング方式を提案する。
我々の理論的分析は、この戦略が実際のグラフの分類損失を減少させる合成グラフを生成することができることを示している。
特に、元のパフォーマンスの最大98%を近似しながら、データセットサイズを90%削減することが可能です。
論文 参考訳(メタデータ) (2022-06-15T18:20:01Z) - Infinite Recommendation Networks: A Data-Centric Approach [8.044430277912936]
Neural Tangent Kernelを活用して、無限大のニューラルネットワークをトレーニングし、無限大のボトルネック層を持つオートエンコーダであるinfty$-AEを考案します。
また、小型で高忠実なデータ要約を合成するためのDistill-CFを開発した。
我々は、最初のデータセットサイズの0.1%に満たない完全なデータセット上で、infty$-AEのパフォーマンスの96-105%を観察した。
論文 参考訳(メタデータ) (2022-06-03T00:34:13Z) - Dataset Condensation via Efficient Synthetic-Data Parameterization [40.56817483607132]
大量のデータを持つ機械学習は、膨大な計算コストと、トレーニングとチューニングのためのストレージの価格が伴う。
データセットの凝縮に関する最近の研究は、コンパクトなトレーニングデータセットを合成することで、そのような大量のデータへの依存を減らそうとしている。
本稿では,データ規則性を考慮した効率的なパラメータ化により,ストレージ予算に制限のある複数の合成データを生成する,新しい凝縮フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-30T09:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。