論文の概要: CADC: Encoding User-Item Interactions for Compressing Recommendation Model Training Data
- arxiv url: http://arxiv.org/abs/2407.08108v2
- Date: Wed, 24 Jul 2024 03:37:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 18:22:12.079498
- Title: CADC: Encoding User-Item Interactions for Compressing Recommendation Model Training Data
- Title(参考訳): CADC:レコメンデーションモデルトレーニングデータ圧縮のためのユーザ-アイテムインタラクションの符号化
- Authors: Hossein Entezari Zarch, Abdulla Alshabanah, Chaoyi Jiang, Murali Annavaram,
- Abstract要約: ディープラーニングレコメンデーションモデル(DLRM)は、現在のeコマース産業の中心にある。
トレーニングデータセットを減らす1つのアプローチは、ユーザとイテムのインタラクションを削除することだ。
本論文は,ユーザとユーザ間のインタラクション履歴をキャプチャしてユーザとアイテムの埋め込みを豊かにすることができれば,モデル精度を損なうことなく,インタラクション履歴を圧縮できることを示す。
- 参考スコア(独自算出の注目度): 4.2363609770022865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning recommendation models (DLRMs) are at the heart of the current e-commerce industry. However, the amount of training data used to train these large models is growing exponentially, leading to substantial training hurdles. The training dataset contains two primary types of information: content-based information (features of users and items) and collaborative information (interactions between users and items). One approach to reduce the training dataset is to remove user-item interactions. But that significantly diminishes collaborative information, which is crucial for maintaining accuracy due to its inclusion of interaction histories. This loss profoundly impacts DLRM performance. This paper makes an important observation that if one can capture the user-item interaction history to enrich the user and item embeddings, then the interaction history can be compressed without losing model accuracy. Thus, this work, Collaborative Aware Data Compression (CADC), takes a two-step approach to training dataset compression. In the first step, we use matrix factorization of the user-item interaction matrix to create a novel embedding representation for both the users and items. Once the user and item embeddings are enriched by the interaction history information the approach then applies uniform random sampling of the training dataset to drastically reduce the training dataset size while minimizing model accuracy drop. The source code of CADC is available at \href{https://anonymous.4open.science/r/DSS-RM-8C1D/README.md}{https://anonymous.4open.science/r/DSS-RM-8C1D/README.md}.
- Abstract(参考訳): ディープラーニングレコメンデーションモデル(DLRM)は、現在のeコマース産業の中心にある。
しかし、これらの大規模モデルのトレーニングに使用されるトレーニングデータの量は指数関数的に増加しており、実質的なトレーニングハードルに繋がる。
トレーニングデータセットには、コンテンツベース情報(ユーザとアイテムの機能)とコラボレーティブ情報(ユーザとアイテム間のインタラクション)の2つの主要なタイプが含まれている。
トレーニングデータセットを減らす1つのアプローチは、ユーザとイテムのインタラクションを削除することだ。
しかし、それは協調情報を著しく減らし、それは相互作用履歴が組み込まれているため、正確性を維持するために不可欠である。
この損失はDLRMの性能に大きな影響を及ぼす。
本論文は,ユーザとユーザ間のインタラクション履歴をキャプチャしてユーザとアイテムの埋め込みを豊かにすることができれば,モデル精度を損なうことなく,インタラクション履歴を圧縮できることを示す。
このように、この作業であるCADC(Collaborative Aware Data Compression)は、データセット圧縮のトレーニングに2段階のアプローチを取る。
最初のステップでは、ユーザとアイテムの両方に新しい埋め込み表現を作成するために、ユーザ-itemインタラクションマトリックスの行列係数化を使用します。
ユーザとアイテムの埋め込みがインタラクション履歴情報によってリッチになると、トレーニングデータセットの均一なランダムサンプリングを適用して、モデルの精度低下を最小化しながら、トレーニングデータセットのサイズを大幅に削減する。
CADCのソースコードは \href{https://anonymous.4open.science/r/DSS-RM-8C1D/README.md}{https://anonymous.4open.science/r/DSS-RM-8C1D/README.md} で公開されている。
関連論文リスト
- Federated Learning with Only Positive Labels by Exploring Label Correlations [78.59613150221597]
フェデレートラーニングは、プライバシー上の制約の下で複数のユーザのデータを使用することで、モデルを協調的に学習することを目的としている。
本稿では,フェデレート学習環境下でのマルチラベル分類問題について検討する。
ラベル相関(FedALC)を探索してフェデレート平均化(Federated Averaging)と呼ばれる新しい,汎用的な手法を提案する。
論文 参考訳(メタデータ) (2024-04-24T02:22:50Z) - Deep Active Learning for Data Mining from Conflict Text Corpora [0.0]
本稿では,能動的学習を活用して,安価で高性能な手法を提案する。
このアプローチは、人間の(ゴールドスタンダードの)コーディングに類似したパフォーマンスを示しながら、必要な人間のアノテーションの量を最大99%削減する。
論文 参考訳(メタデータ) (2024-02-02T17:16:23Z) - Don't Memorize; Mimic The Past: Federated Class Incremental Learning
Without Episodic Memory [36.4406505365313]
本稿では,過去のデータの一部を格納するのではなく,生成モデルを用いて過去の分布からサンプルを合成する,連邦化クラスインクリメンタルラーニングのためのフレームワークを提案する。
生成モデルは、クライアントからデータを要求することなく、各タスクの最後にデータフリーのメソッドを使用してサーバ上でトレーニングされる。
論文 参考訳(メタデータ) (2023-07-02T07:06:45Z) - Architecture, Dataset and Model-Scale Agnostic Data-free Meta-Learning [119.70303730341938]
データフリーメタトレーニングにおけるePisode cUrriculum inversion(ECI)と、内部ループ後のinvErsion calibRation(ICFIL)を提案する。
ECIは、メタモデルのリアルタイムフィードバックに応じて、擬似エピソードの難易度を適応的に増加させる。
本稿では,ECIを用いたメタトレーニングの最適化過程を,エンド・ツー・エンド方式で近似形式として定式化する。
論文 参考訳(メタデータ) (2023-03-20T15:10:41Z) - Scalable Collaborative Learning via Representation Sharing [53.047460465980144]
フェデレートラーニング(FL)とスプリットラーニング(SL)は、データを(デバイス上で)プライベートにしながら協調学習を可能にする2つのフレームワークである。
FLでは、各データ保持者がモデルをローカルにトレーニングし、集約のために中央サーバにリリースする。
SLでは、クライアントは個々のカット層アクティベーション(スマッシュされたデータ)をサーバにリリースし、そのレスポンス(推論とバックの伝搬の両方)を待つ必要があります。
本研究では, クライアントがオンライン知識蒸留を通じて, 対照的な損失を生かして協調する, プライバシ保護機械学習の新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-11-20T10:49:22Z) - Adversarial Representation Sharing: A Quantitative and Secure
Collaborative Learning Framework [3.759936323189418]
コミュニケーションのオーバーヘッドが低く,タスク依存度が低いため,共同学習において表現学習には独特なアドバンテージがあることがわかった。
ARSは、ユーザがモデルを訓練するためにデータの表現を共有する協調学習フレームワークである。
我々は,本機構がモデル逆攻撃に対して有効であることを実証し,プライバシとユーティリティのバランスを実現する。
論文 参考訳(メタデータ) (2022-03-27T13:29:15Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Pretraining Representations for Data-Efficient Reinforcement Learning [12.43475487724972]
ラベルのないデータを使ってエンコーダを事前訓練し、少数のタスク固有のデータに基づいて微調整する。
Atariゲーム上でのインタラクションが100万段階に制限された場合、我々のアプローチは以前の作業を大幅に上回っている。
提案手法では,大規模モデルと組み合わせることで,より多様なタスク整合観測データが得られる。
論文 参考訳(メタデータ) (2021-06-09T04:14:27Z) - Learning to Match Jobs with Resumes from Sparse Interaction Data using
Multi-View Co-Teaching Network [83.64416937454801]
ジョブ列のインタラクションデータは疎結合でノイズが多く、ジョブ列のマッチングアルゴリズムのパフォーマンスに影響する。
求人情報マッチングのための疎相互作用データから,新しいマルチビュー協調学習ネットワークを提案する。
我々のモデルは求人マッチングの最先端手法より優れている。
論文 参考訳(メタデータ) (2020-09-25T03:09:54Z) - Mining Implicit Entity Preference from User-Item Interaction Data for
Knowledge Graph Completion via Adversarial Learning [82.46332224556257]
本稿では,知識グラフ補完タスクにおけるユーザインタラクションデータを活用することで,新たな逆学習手法を提案する。
我々のジェネレータはユーザインタラクションデータから分離されており、識別器の性能を向上させるのに役立ちます。
利用者の暗黙の実体的嗜好を発見するために,グラフニューラルネットワークに基づく精巧な協調学習アルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-03-28T05:47:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。