Fugu-MT 論文翻訳(概要): Data Optimisation for a Deep Learning Recommender System

論文の概要: Data Optimisation for a Deep Learning Recommender System

arxiv url: http://arxiv.org/abs/2106.11218v1
Date: Mon, 21 Jun 2021 16:05:37 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-22 15:10:31.814621
Title: Data Optimisation for a Deep Learning Recommender System
Title（参考訳）: ディープラーニング推薦システムのためのデータ最適化
Authors: Gustav Hertz, Sandhya Sachidanandan, Bal\'azs T\'oth, Emil S. J{\o}rgensen and Martin Tegn\'er
Abstract要約: 本稿では,レコメンデーションシステムにおけるユーザデータの収集に関するプライバシー保護要件について論じる。まず、データ収集の制限がRNNベースのレコメンデーションのテスト品質を損なうかどうかを問う。第2に、二次データソースを使用することで、最小限のデータの下で品質を向上できるかを問う。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper advocates privacy preserving requirements on collection of user data for recommender systems. The purpose of our study is twofold. First, we ask if restrictions on data collection will hurt test quality of RNN-based recommendations. We study how validation performance depends on the available amount of training data. We use a combination of top-K accuracy, catalog coverage and novelty for this purpose, since good recommendations for the user is not necessarily captured by a traditional accuracy metric. Second, we ask if we can improve the quality under minimal data by using secondary data sources. We propose knowledge transfer for this purpose and construct a representation to measure similarities between purchase behaviour in data. This to make qualified judgements of which source domain will contribute the most. Our results show that (i) there is a saturation in test performance when training size is increased above a critical point. We also discuss the interplay between different performance metrics, and properties of data. Moreover, we demonstrate that (ii) our representation is meaningful for measuring purchase behaviour. In particular, results show that we can leverage secondary data to improve validation performance if we select a relevant source domain according to our similarly measure.
Abstract（参考訳）: 本稿では,レコメンデーションシステムにおけるユーザデータの収集に関するプライバシー保護要件を提案する。私たちの研究の目的は2つある。まず、データ収集の制限がRNNベースのレコメンデーションのテスト品質を損なうかどうかを問う。検証性能は利用可能なトレーニングデータの量に依存するか検討する。この目的のために私たちは、トップkの精度、カタログのカバレッジ、ノベルティの組み合わせを使っています。第2に,二次データソースを使用することで,最小限のデータで品質を向上できるかどうかを問う。この目的のために知識伝達を提案し,データの購入行動間の類似性を測定する表現を構築する。これにより、どのソースドメインが最も貢献するかの判断を下すことができる。以上の結果から, トレーニングサイズが臨界点を超えると, テスト性能が飽和していることが示唆された。また、異なるパフォーマンス指標とデータの特性の相互作用についても論じる。さらに, (ii) 購買行動の測定には, 当社の表現が有意であることを示す。特に、同様の測定値に従って関連するソースドメインを選択すると、セカンダリデータを利用して検証性能を向上できることを示す。

関連論文リスト

DataMan: Data Manager for Pre-training Large Language Models [39.677609311769146]
既存の方法は限定的な直観に依存しており、包括的で明確なガイドラインを欠いている。テキストパープレキシティ異常の原因から14の品質基準を導出し、ドメイン混合をサポートするために15の共通アプリケーションドメインを導入する。実験では、DataManを使って30Bトークンを選択し、1.3B-パラメータ言語モデルをトレーニングし、我々のアプローチを検証する。
論文参考訳（メタデータ） (2025-02-26T18:01:19Z)
Larger or Smaller Reward Margins to Select Preferences for Alignment? [47.11487070429289]
嗜好学習は、大きな言語モデルと人間の価値の整合に不可欠である。モデルが持つ現在の暗黙の報酬マージンと目標の明示的な報酬マージンとのギャップを定量化するアライメントポテンシャル計量を導入する。実験結果から,この測定値から選択したデータによるトレーニングはアライメント性能を継続的に向上させることが示された。
論文参考訳（メタデータ） (2025-02-25T06:43:24Z)
Beyond Models! Explainable Data Valuation and Metric Adaption for Recommendation [10.964035199849125]
現在の手法では、高品質なデータと低品質なデータとを区別するためにデータバリュエーションを採用している。本稿では,任意の要求に合わせたデータ利用効率を向上させるための,説明可能な多用途フレームワークDVRを提案する。筆者らのフレームワークは,NDCGの代表的な指標として,既存の手法よりも最大34.7%改善されている。
論文参考訳（メタデータ） (2025-02-12T12:01:08Z)
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文参考訳（メタデータ） (2024-10-10T16:01:51Z)
Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback [110.16220825629749]
嗜好フィードバックからの学習は、現代言語モデルの生成品質と性能を改善するための重要なステップとして現れてきた。本研究では、嗜好データ、学習アルゴリズム、報酬モデル、政策訓練プロンプトという、嗜好に基づく学習の4つの側面を特定する。以上の結果から,すべての側面がパフォーマンス上重要であることが示唆された。
論文参考訳（メタデータ） (2024-06-13T16:17:21Z)
Exploring the Mystery of Influential Data for Mathematical Reasoning [127.61978092016228]
数学的推論のためのQaDS(Quality-Aware Diverse Selection)戦略を提案する。他の選択戦略との比較は、QaDSの優位性を検証する。 OpenMathMixでは、7Bベースモデルを用いたMATHで最先端の48.8%の精度を実現している。
論文参考訳（メタデータ） (2024-04-01T12:01:06Z)
Post-Training Attribute Unlearning in Recommender Systems [37.67195112898097]
既存の研究では、主にトレーニングデータ、すなわちモデル入力を未学習のターゲットとして使用している。我々は、この未知の情報をtextitattribute と呼び、未学習のターゲットとして扱う。ユーザのセンシティブな属性を保護するために、Attribute Unlearning(AU)は、ターゲット属性を識別不能にする。
論文参考訳（メタデータ） (2024-03-11T14:02:24Z)
LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。 LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文参考訳（メタデータ） (2024-02-06T19:18:04Z)
LAVA: Data Valuation without Pre-Specified Learning Algorithms [20.578106028270607]
我々は、下流学習アルゴリズムに不利な方法でトレーニングデータを評価できる新しいフレームワークを導入する。本研究では,訓練と検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
論文参考訳（メタデータ） (2023-04-28T19:05:16Z)
Understanding or Manipulation: Rethinking Online Performance Gains of Modern Recommender Systems [38.75457258877731]
本稿では,推薦アルゴリズムの操作度をベンチマークするフレームワークを提案する。オンラインクリックスルー率が高いことは、必ずしもユーザーの初期嗜好をよりよく理解するという意味ではない。我々は,制約付きユーザ嗜好操作による最適化問題として,将来のレコメンデーションアルゴリズムの研究を取り扱うべきであることを主張する。
論文参考訳（メタデータ） (2022-10-11T17:56:55Z)
Recommendation Systems with Distribution-Free Reliability Guarantees [83.80644194980042]
我々は、主に良いアイテムを含むことを厳格に保証されたアイテムのセットを返す方法を示す。本手法は, 擬似発見率の厳密な有限サンプル制御によるランキングモデルを提供する。我々はYahoo!のランキングとMSMarcoデータセットの学習方法を評価する。
論文参考訳（メタデータ） (2022-07-04T17:49:25Z)
Learning PAC-Bayes Priors for Probabilistic Neural Networks [32.01506699213665]
PAC-Bayes境界を最適化することで訓練されたディープラーニングモデルについて、最近の研究で研究されている。事前構築のために割り当てるべき最適なデータの量は何かを問うとともに、最適なデータがデータセットに依存する可能性があることを示す。
論文参考訳（メタデータ） (2021-09-21T16:27:42Z)
Improving Multi-Turn Response Selection Models with Complementary Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。 2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文参考訳（メタデータ） (2020-02-18T06:29:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。