論文の概要: Data Optimisation for a Deep Learning Recommender System
- arxiv url: http://arxiv.org/abs/2106.11218v1
- Date: Mon, 21 Jun 2021 16:05:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-22 15:10:31.814621
- Title: Data Optimisation for a Deep Learning Recommender System
- Title(参考訳): ディープラーニング推薦システムのためのデータ最適化
- Authors: Gustav Hertz, Sandhya Sachidanandan, Bal\'azs T\'oth, Emil S.
J{\o}rgensen and Martin Tegn\'er
- Abstract要約: 本稿では,レコメンデーションシステムにおけるユーザデータの収集に関するプライバシー保護要件について論じる。
まず、データ収集の制限がRNNベースのレコメンデーションのテスト品質を損なうかどうかを問う。
第2に、二次データソースを使用することで、最小限のデータの下で品質を向上できるかを問う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper advocates privacy preserving requirements on collection of user
data for recommender systems. The purpose of our study is twofold. First, we
ask if restrictions on data collection will hurt test quality of RNN-based
recommendations. We study how validation performance depends on the available
amount of training data. We use a combination of top-K accuracy, catalog
coverage and novelty for this purpose, since good recommendations for the user
is not necessarily captured by a traditional accuracy metric. Second, we ask if
we can improve the quality under minimal data by using secondary data sources.
We propose knowledge transfer for this purpose and construct a representation
to measure similarities between purchase behaviour in data. This to make
qualified judgements of which source domain will contribute the most. Our
results show that (i) there is a saturation in test performance when training
size is increased above a critical point. We also discuss the interplay between
different performance metrics, and properties of data. Moreover, we demonstrate
that (ii) our representation is meaningful for measuring purchase behaviour. In
particular, results show that we can leverage secondary data to improve
validation performance if we select a relevant source domain according to our
similarly measure.
- Abstract(参考訳): 本稿では,レコメンデーションシステムにおけるユーザデータの収集に関するプライバシー保護要件を提案する。
私たちの研究の目的は2つある。
まず、データ収集の制限がRNNベースのレコメンデーションのテスト品質を損なうかどうかを問う。
検証性能は利用可能なトレーニングデータの量に依存するか検討する。
この目的のために私たちは、トップkの精度、カタログのカバレッジ、ノベルティの組み合わせを使っています。
第2に,二次データソースを使用することで,最小限のデータで品質を向上できるかどうかを問う。
この目的のために知識伝達を提案し,データの購入行動間の類似性を測定する表現を構築する。
これにより、どのソースドメインが最も貢献するかの判断を下すことができる。
以上の結果から, トレーニングサイズが臨界点を超えると, テスト性能が飽和していることが示唆された。
また、異なるパフォーマンス指標とデータの特性の相互作用についても論じる。
さらに, (ii) 購買行動の測定には, 当社の表現が有意であることを示す。
特に、同様の測定値に従って関連するソースドメインを選択すると、セカンダリデータを利用して検証性能を向上できることを示す。
関連論文リスト
- Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback [110.16220825629749]
嗜好フィードバックからの学習は、現代言語モデルの生成品質と性能を改善するための重要なステップとして現れてきた。
本研究では、嗜好データ、学習アルゴリズム、報酬モデル、政策訓練プロンプトという、嗜好に基づく学習の4つの側面を特定する。
以上の結果から,すべての側面がパフォーマンス上重要であることが示唆された。
論文 参考訳(メタデータ) (2024-06-13T16:17:21Z) - Exploring the Mystery of Influential Data for Mathematical Reasoning [127.61978092016228]
数学的推論のためのQaDS(Quality-Aware Diverse Selection)戦略を提案する。
他の選択戦略との比較は、QaDSの優位性を検証する。
OpenMathMixでは、7Bベースモデルを用いたMATHで最先端の48.8%の精度を実現している。
論文 参考訳(メタデータ) (2024-04-01T12:01:06Z) - Post-Training Attribute Unlearning in Recommender Systems [37.67195112898097]
既存の研究では、主にトレーニングデータ、すなわちモデル入力を未学習のターゲットとして使用している。
我々は、この未知の情報をtextitattribute と呼び、未学習のターゲットとして扱う。
ユーザのセンシティブな属性を保護するために、Attribute Unlearning(AU)は、ターゲット属性を識別不能にする。
論文 参考訳(メタデータ) (2024-03-11T14:02:24Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - LAVA: Data Valuation without Pre-Specified Learning Algorithms [20.578106028270607]
我々は、下流学習アルゴリズムに不利な方法でトレーニングデータを評価できる新しいフレームワークを導入する。
本研究では,訓練と検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。
距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
論文 参考訳(メタデータ) (2023-04-28T19:05:16Z) - Understanding or Manipulation: Rethinking Online Performance Gains of
Modern Recommender Systems [38.75457258877731]
本稿では,推薦アルゴリズムの操作度をベンチマークするフレームワークを提案する。
オンラインクリックスルー率が高いことは、必ずしもユーザーの初期嗜好をよりよく理解するという意味ではない。
我々は,制約付きユーザ嗜好操作による最適化問題として,将来のレコメンデーションアルゴリズムの研究を取り扱うべきであることを主張する。
論文 参考訳(メタデータ) (2022-10-11T17:56:55Z) - Recommendation Systems with Distribution-Free Reliability Guarantees [83.80644194980042]
我々は、主に良いアイテムを含むことを厳格に保証されたアイテムのセットを返す方法を示す。
本手法は, 擬似発見率の厳密な有限サンプル制御によるランキングモデルを提供する。
我々はYahoo!のランキングとMSMarcoデータセットの学習方法を評価する。
論文 参考訳(メタデータ) (2022-07-04T17:49:25Z) - Learning PAC-Bayes Priors for Probabilistic Neural Networks [32.01506699213665]
PAC-Bayes境界を最適化することで訓練されたディープラーニングモデルについて、最近の研究で研究されている。
事前構築のために割り当てるべき最適なデータの量は何かを問うとともに、最適なデータがデータセットに依存する可能性があることを示す。
論文 参考訳(メタデータ) (2021-09-21T16:27:42Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。