Fugu-MT 論文翻訳(概要): A Case Study on Sampling Strategies for Evaluating Neural Sequential Item Recommendation Models

論文の概要: A Case Study on Sampling Strategies for Evaluating Neural Sequential Item Recommendation Models

arxiv url: http://arxiv.org/abs/2107.13045v1
Date: Tue, 27 Jul 2021 19:06:03 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-29 13:50:28.457530
Title: A Case Study on Sampling Strategies for Evaluating Neural Sequential Item Recommendation Models
Title（参考訳）: ニューラルシーケンシャルアイテムレコメンデーションモデル評価のためのサンプリング戦略に関するケーススタディ
Authors: Alexander Dallmann, Daniel Zoller, Andreas Hotho
Abstract要約: 負の項目をサンプリングする2つのよく知られた戦略は、一様ランダムサンプリングと人気によるサンプリングである。我々は、現在最先端のシーケンシャルレコメンデータモデルを再評価する。いずれのサンプリング戦略も,モデルの完全なランキングと比較すると,一貫性のないランキングを生成できることがわかった。
参考スコア（独自算出の注目度）: 69.32128532935403
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: At the present time, sequential item recommendation models are compared by calculating metrics on a small item subset (target set) to speed up computation. The target set contains the relevant item and a set of negative items that are sampled from the full item set. Two well-known strategies to sample negative items are uniform random sampling and sampling by popularity to better approximate the item frequency distribution in the dataset. Most recently published papers on sequential item recommendation rely on sampling by popularity to compare the evaluated models. However, recent work has already shown that an evaluation with uniform random sampling may not be consistent with the full ranking, that is, the model ranking obtained by evaluating a metric using the full item set as target set, which raises the question whether the ranking obtained by sampling by popularity is equal to the full ranking. In this work, we re-evaluate current state-of-the-art sequential recommender models from the point of view, whether these sampling strategies have an impact on the final ranking of the models. We therefore train four recently proposed sequential recommendation models on five widely known datasets. For each dataset and model, we employ three evaluation strategies. First, we compute the full model ranking. Then we evaluate all models on a target set sampled by the two different sampling strategies, uniform random sampling and sampling by popularity with the commonly used target set size of 100, compute the model ranking for each strategy and compare them with each other. Additionally, we vary the size of the sampled target set. Overall, we find that both sampling strategies can produce inconsistent rankings compared with the full ranking of the models. Furthermore, both sampling by popularity and uniform random sampling do not consistently produce the same ranking ...
Abstract（参考訳）: このとき、小さなアイテムサブセット(ターゲットセット)上でメトリクスを計算し、計算を高速化することにより、逐次アイテムレコメンデーションモデルを比較する。対象セットは、関連する項目と、全項目セットからサンプリングされる負の項目のセットとを含む。負の項目をサンプリングする2つのよく知られた戦略は、データセットの項目頻度分布をより正確に近似するために、一様ランダムサンプリングと人気によるサンプリングである。最近発表されたシーケンシャルアイテムレコメンデーションに関する論文は、評価されたモデルを比較するために人気によるサンプリングに依存している。しかし、近年の研究では、一様ランダムサンプリングによる評価は、全ランキング、すなわち、全アイテムセットを目標セットとして測定値を評価することによって得られるモデルランキングと一致しない可能性があることが示されており、人気によるサンプリングによる評価が全ランキングと等しいか否かを疑問視している。本研究では,現在最先端のレコメンデータモデルを再評価し,これらのサンプリング戦略がモデルの最終ランキングに影響を及ぼすかどうかを考察する。そこで我々は,最近提案されている5つのデータセットの逐次レコメンデーションモデルをトレーニングした。各データセットとモデルに対して,評価戦略を3つ採用する。まず、モデル全体のランキングを計算します。次に、2つの異なるサンプリング戦略によってサンプリングされたターゲットセット上の全てのモデルの評価を行い、一般的な100のターゲットセットサイズに対して一様なランダムサンプリングとサンプリングを行い、各戦略のモデルランキングを計算し、それらを比較した。さらに、サンプルされたターゲットセットのサイズも異なります。いずれのサンプリング戦略も,モデルの完全なランキングと比較すると,一貫性のないランキングを生成できることがわかった。さらに、人気によるサンプリングと均一なランダムサンプリングの両方が、常に同じランキングを生成するわけではない。

関連論文リスト

Sampling-Based Estimation of Jaccard Containment and Similarity [0.0]
本研究はサンプル間の重なり合いを予測する二項モデルを導入し,サンプルサイズが元の集合に比べて小さい場合の精度と実用性を示した。このフレームワークは,データセットの類似性を推定するために拡張されており,本論文では,部分データやサンプルデータのみが利用可能な大規模データシステムにこれらの手法を適用するためのガイダンスを提供する。
論文参考訳（メタデータ） (2025-07-14T07:56:29Z)
How Benchmark Prediction from Fewer Data Misses the Mark [18.693874781163657]
ベンチマーク予測は、評価ポイントの小さなサブセットを選択し、そのサブセットからベンチマーク全体のパフォーマンスを予測することを目的としている。本論文では,19種類のベンチマークにおいて,11種類のベンチマーク予測手法の長所と短所を体系的に評価する。
論文参考訳（メタデータ） (2025-06-09T11:50:41Z)
Ordered Semantically Diverse Sampling for Textual Data [6.280814487955095]
順序付きサンプルリストの多様性を計測する新しい指標に基づいて、順序付き多様なサンプリング問題を導入する。埋め込みベクトルの主成分を用いたテキストデータに対して順序付き多様なサンプルを生成する新しい手法を提案する。
論文参考訳（メタデータ） (2025-03-12T06:38:57Z)
Finding the Sweet Spot: Preference Data Construction for Scaling Preference Optimization [66.67988187816185]
本研究の目的は、繰り返しランダムサンプリングにより、オンラインサンプルの数を増大させ、アライメント性能を向上させることである。実験の結果,サンプルサイズが大きくなるにつれて,この戦略がエフェデクリンの性能向上につながることが明らかとなった。サンプルの規模が大きくなるにつれてモデル性能を継続的に向上するスケーラブルな嗜好データ構築戦略を導入する。
論文参考訳（メタデータ） (2025-02-24T04:22:57Z)
ONEBench to Test Them All: Sample-Level Benchmarking Over Open-Ended Capabilities [30.123976500620834]
従来の固定テストセットは、ファンデーションモデルのオープンな機能を評価するのに不足しています。 ONEBenchは、個々の評価データセットを統一し、拡張し続けるサンプルプールに統合する新しいテストパラダイムである。 ONEBenchは、テストセットにまたがってサンプルを集約することにより、オリジナルのテストセットでカバーされたもの以上の多様な機能の評価を可能にする。
論文参考訳（メタデータ） (2024-12-09T18:37:14Z)
Evaluating Performance and Bias of Negative Sampling in Large-Scale Sequential Recommendation Models [0.0]
大規模産業レコメンデーションモデルは、数百万から数十億のオプションを含むカタログから最も関連性の高いアイテムを予測する。これらのモデルを効率的に訓練するために、関連する項目ごとに巨大なカタログから無関係な項目(負のサンプル)の小さなセットが選択される。本研究は,大規模シーケンシャルレコメンデーションモデルの負サンプリング法を選択する際のトレードオフの実践的ガイドとして機能する。
論文参考訳（メタデータ） (2024-10-08T00:23:17Z)
AutoSAM: Towards Automatic Sampling of User Behaviors for Sequential Recommender Systems [48.461157194277504]
本稿では,歴史的挙動を一様に扱わない汎用的な自動サンプリングフレームワークであるAutoSAMを提案する。具体的には、AutoSAMは、サンプル層を追加して標準のシーケンシャルレコメンデーションアーキテクチャを拡張し、生入力のスキュー分布を適応的に学習する。理論的には、Future PredictionやSequence Perplexityなどの多目的サンプリング報酬を設計し、フレームワーク全体をエンドツーエンドで最適化する。
論文参考訳（メタデータ） (2023-11-01T09:25:21Z)
Efficient Failure Pattern Identification of Predictive Algorithms [15.02620042972929]
本稿では,人間のアノテータチームとシーケンシャルレコメンデーションアルゴリズムからなる人間機械協調フレームワークを提案する。その結果、様々な信号対雑音比で複数のデータセット上でのフレームワークの競合性能を実証的に実証した。
論文参考訳（メタデータ） (2023-06-01T14:54:42Z)
BRIO: Bringing Order to Abstractive Summarization [107.97378285293507]
非決定論的分布を前提とした新しい学習パラダイムを提案する。提案手法は, CNN/DailyMail (47.78 ROUGE-1) と XSum (49.07 ROUGE-1) のデータセット上で, 最新の結果が得られる。
論文参考訳（メタデータ） (2022-03-31T05:19:38Z)
A Unified Statistical Learning Model for Rankings and Scores with Application to Grant Panel Review [1.240096657086732]
ランク付けとスコアは、審査員がオブジェクトのコレクションにおける好みや品質の知覚を表現するために使用する2つの一般的なデータタイプである。各タイプのデータを個別に研究するためのモデルが多数存在するが、両タイプのデータを同時に取得する統一統計モデルは存在しない。このギャップを埋めるために,Mallows-Binomialモデルを提案し,BinomialスコアモデルとMallowsの$phi$ランキングモデルを組み合わせた。
論文参考訳（メタデータ） (2022-01-07T16:56:52Z)
Adaptive Sampling for Heterogeneous Rank Aggregation from Noisy Pairwise Comparisons [85.5955376526419]
ランキングアグリゲーション問題では、各項目を比較する際に、様々な精度レベルが示される。本稿では,ノイズのあるペアワイズ比較によってアイテムのランクを推定する,除去に基づくアクティブサンプリング戦略を提案する。提案アルゴリズムは,商品の真のランキングを高い確率で返却できることを示す。
論文参考訳（メタデータ） (2021-10-08T13:51:55Z)
Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。局所探索のための政策勾配は、しばしばランダムな摂動から得られる。目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文参考訳（メタデータ） (2021-06-22T16:07:02Z)
Set2setRank: Collaborative Set to Set Ranking for Implicit Feedback based Recommendation [59.183016033308014]
本稿では,暗黙的フィードバックの特徴を探究し,推奨するSet2setRankフレームワークを提案する。提案するフレームワークはモデルに依存しず,ほとんどの推奨手法に容易に適用できる。
論文参考訳（メタデータ） (2021-05-16T08:06:22Z)
One for More: Selecting Generalizable Samples for Generalizable ReID Model [92.40951770273972]
本稿では,選択したサンプルを損失関数として一般化する1対3の学習目標を提案する。提案した1対3のサンプルは,ReIDトレーニングフレームワークにシームレスに統合できる。
論文参考訳（メタデータ） (2020-12-10T06:37:09Z)
More Informed Random Sample Consensus [1.827510863075184]
本稿では,L'evy分布とデータソートアルゴリズムを併用してデータをサンプリングする手法を提案する。提案手法の仮説サンプリングステップでは, データをソートアルゴリズムでソートし, 不整集合にあるデータ点の確率に基づいてデータをソートする。次に、L'evy分布のソートされたデータから仮説をサンプリングする。
論文参考訳（メタデータ） (2020-11-18T06:43:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。