論文の概要: On Sampling Collaborative Filtering Datasets
- arxiv url: http://arxiv.org/abs/2201.04768v1
- Date: Thu, 13 Jan 2022 02:39:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-15 00:40:32.356423
- Title: On Sampling Collaborative Filtering Datasets
- Title(参考訳): 協調フィルタリングデータセットのサンプリングについて
- Authors: Noveen Sachdeva, Carole-Jean Wu, Julian McAuley
- Abstract要約: 提案アルゴリズムのランク付け性能に対するデータセットサンプリング戦略の実践的結果について検討する。
我々は、与えられたデータセットのモデル性能を最も保持する可能性のあるサンプリングスキームを提案できるオラクル、Data-Genieを開発した。
- 参考スコア(独自算出の注目度): 9.041133460836361
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the practical consequences of dataset sampling strategies on the
ranking performance of recommendation algorithms. Recommender systems are
generally trained and evaluated on samples of larger datasets. Samples are
often taken in a naive or ad-hoc fashion: e.g. by sampling a dataset randomly
or by selecting users or items with many interactions. As we demonstrate,
commonly-used data sampling schemes can have significant consequences on
algorithm performance. Following this observation, this paper makes three main
contributions: (1) characterizing the effect of sampling on algorithm
performance, in terms of algorithm and dataset characteristics (e.g. sparsity
characteristics, sequential dynamics, etc.); (2) designing SVP-CF, which is a
data-specific sampling strategy, that aims to preserve the relative performance
of models after sampling, and is especially suited to long-tailed interaction
data; and (3) developing an oracle, Data-Genie, which can suggest the sampling
scheme that is most likely to preserve model performance for a given dataset.
The main benefit of Data-Genie is that it will allow recommender system
practitioners to quickly prototype and compare various approaches, while
remaining confident that algorithm performance will be preserved, once the
algorithm is retrained and deployed on the complete data. Detailed experiments
show that using Data-Genie, we can discard upto 5x more data than any sampling
strategy with the same level of performance.
- Abstract(参考訳): 提案アルゴリズムのランク付け性能に対するデータセットサンプリング戦略の実践的結果について検討する。
レコメンダシステムは一般的にトレーニングされ、より大きなデータセットのサンプルで評価される。
例えば、データセットをランダムにサンプリングしたり、多くのインタラクションを持つユーザやアイテムを選択するなどである。
示すように、一般的なデータサンプリング方式は、アルゴリズムの性能に大きな影響を及ぼす可能性がある。
Following this observation, this paper makes three main contributions: (1) characterizing the effect of sampling on algorithm performance, in terms of algorithm and dataset characteristics (e.g. sparsity characteristics, sequential dynamics, etc.); (2) designing SVP-CF, which is a data-specific sampling strategy, that aims to preserve the relative performance of models after sampling, and is especially suited to long-tailed interaction data; and (3) developing an oracle, Data-Genie, which can suggest the sampling scheme that is most likely to preserve model performance for a given dataset.
Data-Genieの主な利点は、レコメンデータシステム実践者が様々なアプローチのプロトタイプと比較を迅速に行うことができる一方で、アルゴリズムのパフォーマンスが維持されると確信している点である。
詳細な実験によると、Data-Genieを使えば、同じレベルのパフォーマンスを持つサンプリング戦略よりも最大5倍のデータを捨てることができます。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Dataset Quantization with Active Learning based Adaptive Sampling [11.157462442942775]
また, 不均一なサンプル分布であっても, 性能維持が可能であることを示す。
サンプル選択を最適化するために,新しい能動的学習に基づく適応型サンプリング手法を提案する。
提案手法は,最先端のデータセット圧縮手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-09T23:09:18Z) - RECOST: External Knowledge Guided Data-efficient Instruction Tuning [25.985023475991625]
我々は、現在のデータ効率のよい命令チューニング手法は、元の命令チューニングデータセットの品質に大きく依存していると論じる。
我々は、外部知識ベースの再評価と多様性に一貫性のあるサンプリングを単一のパイプラインに統合する、textbfRECOSTと呼ばれるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-27T09:47:36Z) - Experiment Planning with Function Approximation [49.50254688629728]
本研究では,文脈的帯域幅問題における関数近似を用いた実験計画の問題点について検討する。
本稿では,関数近似に適合する2つの実験計画戦略を提案する。
そこで, 均一サンプリング器は, 動作数が少ない設定において, 競合最適性を達成できることを示す。
論文 参考訳(メタデータ) (2024-01-10T14:40:23Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - Reinforced Approximate Exploratory Data Analysis [7.974685452145769]
まず,対話型データ探索環境におけるサンプリングの影響について検討し,近似誤差を導入する。
本稿では, サンプル選択を最適化し, 分析および洞察フローの持続性を維持するための, 深層強化学習(DRL)に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-12T20:20:22Z) - Pareto Optimization for Active Learning under Out-of-Distribution Data
Scenarios [79.02009938011447]
本研究では,未ラベルデータプールからバッチサイズを固定した未ラベルサンプルの最適なサブセットを選択するサンプリング手法を提案する。
実験の結果,従来の機械学習(ML)タスクとディープラーニング(DL)タスクの両方において,その効果が示された。
論文 参考訳(メタデータ) (2022-07-04T04:11:44Z) - Adaptive Sampling Strategies to Construct Equitable Training Datasets [0.7036032466145111]
コンピュータビジョンから自然言語処理までの領域では、機械学習モデルがスタークの相違を示すことが示されている。
これらのパフォーマンスギャップに寄与する要因の1つは、モデルがトレーニングしたデータに表現力の欠如である。
公平なトレーニングデータセットを作成する際の問題を形式化し、この問題に対処するための統計的枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-31T19:19:30Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。