Fugu-MT 論文翻訳(概要): Dataset Condensation for Recommendation

論文の概要: Dataset Condensation for Recommendation

arxiv url: http://arxiv.org/abs/2310.01038v2
Date: Thu, 17 Oct 2024 18:35:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:29.447773
Title: Dataset Condensation for Recommendation
Title（参考訳）: 勧告のためのデータセットの凝縮
Authors: Jiahao Wu, Wenqi Fan, Jingfan Chen, Shengcai Liu, Qijiong Liu, Rui He, Qing Li, Ke Tang,
Abstract要約: 推奨に適した軽量凝縮フレームワーク(DConRec)を提案する。我々は,確率論的アプローチによる個別のユーザとイテムのインタラクションをモデル化し,ユーザの潜在的な嗜好を凝縮したデータセットに組み込むために,事前拡張モジュールを設計する。複数の実世界のデータセットに対する実験結果から,本フレームワークの有効性と有効性が確認された。
参考スコア（独自算出の注目度）: 29.239833773646975
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Training recommendation models on large datasets requires significant time and resources. It is desired to construct concise yet informative datasets for efficient training. Recent advances in dataset condensation show promise in addressing this problem by synthesizing small datasets. However, applying existing methods of dataset condensation to recommendation has limitations: (1) they fail to generate discrete user-item interactions, and (2) they could not preserve users' potential preferences. To address the limitations, we propose a lightweight condensation framework tailored for recommendation (DConRec), focusing on condensing user-item historical interaction sets. Specifically, we model the discrete user-item interactions via a probabilistic approach and design a pre-augmentation module to incorporate the potential preferences of users into the condensed datasets. While the substantial size of datasets leads to costly optimization, we propose a lightweight policy gradient estimation to accelerate the data synthesis. Experimental results on multiple real-world datasets have demonstrated the effectiveness and efficiency of our framework. Besides, we provide a theoretical analysis of the provable convergence of DConRec. Our implementation is available at: https://github.com/JiahaoWuGit/DConRec.
Abstract（参考訳）: 大規模なデータセットでレコメンデーションモデルをトレーニングするには、かなりの時間とリソースが必要です。効率的なトレーニングのために、簡潔だが有益なデータセットを構築することが望まれる。データセット凝縮の最近の進歩は、小さなデータセットを合成することでこの問題に対処することを約束している。しかし,既存のデータセット凝縮法を推薦に適用するには,(1)個別のユーザ・イテムインタラクションを生成できないこと,(2)ユーザの潜在的な嗜好を保存できないこと,といった制限がある。この制約に対処するため、ユーザとイテムの歴史的相互作用集合の凝縮に着目した、リコメンデーションに適した軽量凝縮フレームワーク(DConRec)を提案する。具体的には,確率論的アプローチによる個別のユーザ・イテムインタラクションをモデル化し,ユーザの潜在的な嗜好を凝縮したデータセットに組み込むための事前拡張モジュールを設計する。データセットのかなりのサイズはコストのかかる最適化につながるが,データ合成を高速化する軽量なポリシー勾配推定法を提案する。複数の実世界のデータセットに対する実験結果から,本フレームワークの有効性と有効性が確認された。さらに、DConRecの証明可能な収束に関する理論的解析を行う。私たちの実装は、https://github.com/JiahaoWuGit/DConRec.comで利用可能です。

関連論文リスト

TD3: Tucker Decomposition Based Dataset Distillation Method for Sequential Recommendation [50.23504065567638]
本稿では,メタラーニングフレームワークにおける textbfDataset textbfDistillation 手法である textbfTD3 を紹介する。 TD3は、オリジナルのデータから完全に表現力のある合成配列の要約を蒸留する。拡張技術により、学習者は合成要約を忠実に適合させ、アンプループでの正確な更新を確実にすることができる。
論文参考訳（メタデータ） (2025-02-05T03:13:25Z)
Enhancing Generalization via Sharpness-Aware Trajectory Matching for Dataset Condensation [37.77454972709646]
学習した合成データセットの一般化能力を高めるシャープネス認識軌道マッチング(SATM)を導入する。我々の手法は数学的に十分サポートされており、制御可能な計算オーバーヘッドとともに実装が容易である。
論文参考訳（メタデータ） (2025-02-03T22:30:06Z)
Hierarchical Features Matter: A Deep Exploration of GAN Priors for Improved Dataset Distillation [51.44054828384487]
階層的生成潜在蒸留(H-GLaD)と呼ばれる新しいパラメータ化法を提案する。本手法はGAN内の階層層を系統的に探索する。さらに,合成データセット評価に伴う計算負担を軽減するために,新しいクラス関連特徴距離尺度を導入する。
論文参考訳（メタデータ） (2024-06-09T09:15:54Z)
Dataset Regeneration for Sequential Recommendation [69.93516846106701]
DR4SRと呼ばれるモデルに依存しないデータセット再生フレームワークを用いて、理想的なトレーニングデータセットを開発するためのデータ中心のパラダイムを提案する。データ中心のパラダイムの有効性を示すために、我々はフレームワークを様々なモデル中心の手法と統合し、4つの広く採用されているデータセット間で大きなパフォーマンス改善を観察する。
論文参考訳（メタデータ） (2024-05-28T03:45:34Z)
Elucidating the Design Space of Dataset Condensation [23.545641118984115]
データ中心学習の概念であるデータセット凝縮は、オリジナルのデータセットから合成バージョンに重要な属性を効率的に転送する。本稿では,ソフトカテゴリ対応マッチングの実装のような,具体的な効果的な戦略を含む包括的な設計フレームワークを提案する。我々のテストでは、ECCは最先端の精度を達成し、圧縮比0.78%に相当するResNet-18モデルでImageNet-1kで48.6%に達した。
論文参考訳（メタデータ） (2024-04-21T18:19:27Z)
TF-DCon: Leveraging Large Language Models (LLMs) to Empower Training-Free Dataset Condensation for Content-Based Recommendation [28.567219434790875]
コンテンツベースのレコメンデーション(CBR)のモダンなテクニックは、アイテムコンテンツ情報を活用して、ユーザにパーソナライズされたサービスを提供するが、大規模なデータセットでのリソース集約的なトレーニングに苦しむ。そこで我々は,大規模なデータセットで訓練されたデータセットに匹敵する性能をモデルが達成できるような,小さいが情報に富むデータセットを合成するために,データセット凝縮を提案する。データセットのサイズを95%削減しながら、元のパフォーマンスの97%を近似することができます(すなわち、データセットMIND上で)。
論文参考訳（メタデータ） (2023-10-15T16:15:07Z)
Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文参考訳（メタデータ） (2023-07-19T04:07:33Z)
Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文参考訳（メタデータ） (2023-05-16T07:30:29Z)
DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文参考訳（メタデータ） (2022-07-20T03:54:05Z)
Condensing Graphs via One-Step Gradient Matching [50.07587238142548]
ネットワーク重みを訓練せずに1ステップのみの勾配マッチングを行う1ステップ勾配マッチング方式を提案する。我々の理論的分析は、この戦略が実際のグラフの分類損失を減少させる合成グラフを生成することができることを示している。特に、元のパフォーマンスの最大98%を近似しながら、データセットサイズを90%削減することが可能です。
論文参考訳（メタデータ） (2022-06-15T18:20:01Z)
Infinite Recommendation Networks: A Data-Centric Approach [8.044430277912936]
Neural Tangent Kernelを活用して、無限大のニューラルネットワークをトレーニングし、無限大のボトルネック層を持つオートエンコーダであるinfty$-AEを考案します。また、小型で高忠実なデータ要約を合成するためのDistill-CFを開発した。我々は、最初のデータセットサイズの0.1%に満たない完全なデータセット上で、infty$-AEのパフォーマンスの96-105%を観察した。
論文参考訳（メタデータ） (2022-06-03T00:34:13Z)
Dataset Condensation via Efficient Synthetic-Data Parameterization [40.56817483607132]
大量のデータを持つ機械学習は、膨大な計算コストと、トレーニングとチューニングのためのストレージの価格が伴う。データセットの凝縮に関する最近の研究は、コンパクトなトレーニングデータセットを合成することで、そのような大量のデータへの依存を減らそうとしている。本稿では,データ規則性を考慮した効率的なパラメータ化により,ストレージ予算に制限のある複数の合成データを生成する,新しい凝縮フレームワークを提案する。
論文参考訳（メタデータ） (2022-05-30T09:55:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。