論文の概要: Data Optimisation for a Deep Learning Recommender System
- arxiv url: http://arxiv.org/abs/2106.11218v1
- Date: Mon, 21 Jun 2021 16:05:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-22 15:10:31.814621
- Title: Data Optimisation for a Deep Learning Recommender System
- Title(参考訳): ディープラーニング推薦システムのためのデータ最適化
- Authors: Gustav Hertz, Sandhya Sachidanandan, Bal\'azs T\'oth, Emil S.
J{\o}rgensen and Martin Tegn\'er
- Abstract要約: 本稿では,レコメンデーションシステムにおけるユーザデータの収集に関するプライバシー保護要件について論じる。
まず、データ収集の制限がRNNベースのレコメンデーションのテスト品質を損なうかどうかを問う。
第2に、二次データソースを使用することで、最小限のデータの下で品質を向上できるかを問う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper advocates privacy preserving requirements on collection of user
data for recommender systems. The purpose of our study is twofold. First, we
ask if restrictions on data collection will hurt test quality of RNN-based
recommendations. We study how validation performance depends on the available
amount of training data. We use a combination of top-K accuracy, catalog
coverage and novelty for this purpose, since good recommendations for the user
is not necessarily captured by a traditional accuracy metric. Second, we ask if
we can improve the quality under minimal data by using secondary data sources.
We propose knowledge transfer for this purpose and construct a representation
to measure similarities between purchase behaviour in data. This to make
qualified judgements of which source domain will contribute the most. Our
results show that (i) there is a saturation in test performance when training
size is increased above a critical point. We also discuss the interplay between
different performance metrics, and properties of data. Moreover, we demonstrate
that (ii) our representation is meaningful for measuring purchase behaviour. In
particular, results show that we can leverage secondary data to improve
validation performance if we select a relevant source domain according to our
similarly measure.
- Abstract(参考訳): 本稿では,レコメンデーションシステムにおけるユーザデータの収集に関するプライバシー保護要件を提案する。
私たちの研究の目的は2つある。
まず、データ収集の制限がRNNベースのレコメンデーションのテスト品質を損なうかどうかを問う。
検証性能は利用可能なトレーニングデータの量に依存するか検討する。
この目的のために私たちは、トップkの精度、カタログのカバレッジ、ノベルティの組み合わせを使っています。
第2に,二次データソースを使用することで,最小限のデータで品質を向上できるかどうかを問う。
この目的のために知識伝達を提案し,データの購入行動間の類似性を測定する表現を構築する。
これにより、どのソースドメインが最も貢献するかの判断を下すことができる。
以上の結果から, トレーニングサイズが臨界点を超えると, テスト性能が飽和していることが示唆された。
また、異なるパフォーマンス指標とデータの特性の相互作用についても論じる。
さらに, (ii) 購買行動の測定には, 当社の表現が有意であることを示す。
特に、同様の測定値に従って関連するソースドメインを選択すると、セカンダリデータを利用して検証性能を向上できることを示す。
関連論文リスト
- LESS: Selecting Influential Data for Targeted Instruction Tuning [69.50855460630105]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - One Shot Learning as Instruction Data Prospector for Large Language
Models [111.0897473747819]
Nuggetsは、ワンショット学習を用いて、拡張データセットから高品質な命令データを選択する手法である。
提案手法は,Nuggets が生成した例の上位1%による命令チューニングが,全データセットを使用する従来の手法よりも大幅に優れていたことを実証する。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - Opinion mining using Double Channel CNN for Recommender System [0.0]
深層学習モデルを用いた感情分析のアプローチを提案し,それを製品に推奨する。
意見マイニングには2チャネル畳み込みニューラルネットワークモデルが使用されており、5つのレイヤを持ち、データから重要な特徴を抽出する。
提案手法の精度は91.6%に達し, 従来のアスペクトベース手法に比べて有意に向上した。
論文 参考訳(メタデータ) (2023-07-15T13:11:18Z) - LAVA: Data Valuation without Pre-Specified Learning Algorithms [20.578106028270607]
我々は、下流学習アルゴリズムに不利な方法でトレーニングデータを評価できる新しいフレームワークを導入する。
本研究では,訓練と検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。
距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
論文 参考訳(メタデータ) (2023-04-28T19:05:16Z) - Improving Recommendation Fairness via Data Augmentation [66.4071365614835]
協調フィルタリングに基づくレコメンデーションは、すべてのユーザの過去の行動データからユーザの好みを学習し、意思決定を容易にするために人気がある。
ユーザの敏感な属性に応じて異なるユーザグループに対して等しく機能しない場合には,レコメンダシステムは不公平であると考えられる。
本稿では,データ拡張の観点から,レコメンデーションフェアネスを改善する方法について検討する。
論文 参考訳(メタデータ) (2023-02-13T13:11:46Z) - Understanding or Manipulation: Rethinking Online Performance Gains of
Modern Recommender Systems [38.75457258877731]
本稿では,推薦アルゴリズムの操作度をベンチマークするフレームワークを提案する。
オンラインクリックスルー率が高いことは、必ずしもユーザーの初期嗜好をよりよく理解するという意味ではない。
我々は,制約付きユーザ嗜好操作による最適化問題として,将来のレコメンデーションアルゴリズムの研究を取り扱うべきであることを主張する。
論文 参考訳(メタデータ) (2022-10-11T17:56:55Z) - Recommendation Systems with Distribution-Free Reliability Guarantees [83.80644194980042]
我々は、主に良いアイテムを含むことを厳格に保証されたアイテムのセットを返す方法を示す。
本手法は, 擬似発見率の厳密な有限サンプル制御によるランキングモデルを提供する。
我々はYahoo!のランキングとMSMarcoデータセットの学習方法を評価する。
論文 参考訳(メタデータ) (2022-07-04T17:49:25Z) - Learning PAC-Bayes Priors for Probabilistic Neural Networks [32.01506699213665]
PAC-Bayes境界を最適化することで訓練されたディープラーニングモデルについて、最近の研究で研究されている。
事前構築のために割り当てるべき最適なデータの量は何かを問うとともに、最適なデータがデータセットに依存する可能性があることを示す。
論文 参考訳(メタデータ) (2021-09-21T16:27:42Z) - S^3-Rec: Self-Supervised Learning for Sequential Recommendation with
Mutual Information Maximization [104.87483578308526]
本稿では,シーケンスレコメンデーションのための自己改善学習のためのモデルS3-Recを提案する。
そこで本稿では,属性,項目,サブシーケンス,シーケンス間の相関関係を学習するために,4つの補助的自己教師対象を考案する。
6つの実世界のデータセットで実施された大規模な実験は、既存の最先端手法よりも提案手法が優れていることを示す。
論文 参考訳(メタデータ) (2020-08-18T11:44:10Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。