論文の概要: Exploring and Exploiting Data Heterogeneity in Recommendation
- arxiv url: http://arxiv.org/abs/2305.15431v1
- Date: Sun, 21 May 2023 11:01:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 19:19:08.440584
- Title: Exploring and Exploiting Data Heterogeneity in Recommendation
- Title(参考訳): 勧告におけるデータの不均一性の探索と展開
- Authors: Zimu Wang, Jiashuo Liu, Hao Zou, Xingxuan Zhang, Yue He, Dongxu Liang,
Peng Cui
- Abstract要約: レコメンデーションデータの不均一性は、レコメンデーションモデルの性能を制限し、サブポピュレーションのロバスト性を傷つけ、バイアスによってモデルを誤解させる可能性がある。
本研究は,推薦データにおける不均一性の2つの代表的なカテゴリの探索に焦点をあてる。
発見されていない不均一性は、複数のサブモデルで予測し、デビアをサポートするレコメンデーションシナリオにおいて2つの目的で利用されます。
- 参考スコア(独自算出の注目度): 26.997131051172992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Massive amounts of data are the foundation of data-driven recommendation
models. As an inherent nature of big data, data heterogeneity widely exists in
real-world recommendation systems. It reflects the differences in the
properties among sub-populations. Ignoring the heterogeneity in recommendation
data could limit the performance of recommendation models, hurt the
sub-populational robustness, and make the models misled by biases. However,
data heterogeneity has not attracted substantial attention in the
recommendation community. Therefore, it inspires us to adequately explore and
exploit heterogeneity for solving the above problems and assisting data
analysis. In this work, we focus on exploring two representative categories of
heterogeneity in recommendation data that is the heterogeneity of prediction
mechanism and covariate distribution and propose an algorithm that explores the
heterogeneity through a bilevel clustering method. Furthermore, the uncovered
heterogeneity is exploited for two purposes in recommendation scenarios which
are prediction with multiple sub-models and supporting debias. Extensive
experiments on real-world data validate the existence of heterogeneity in
recommendation data and the effectiveness of exploring and exploiting data
heterogeneity in recommendation.
- Abstract(参考訳): 大量のデータがデータ駆動レコメンデーションモデルの基盤となっている。
ビッグデータの本質として、データ不均一性は現実世界のレコメンデーションシステムに広く存在する。
サブポピュレーション間の特性の違いを反映している。
レコメンデーションデータの不均一性を無視することは、レコメンデーションモデルの性能を制限し、サブポピュレーションの堅牢性を傷つけ、バイアスによってモデルを誤解させる。
しかし、データの不均一性はレコメンデーションコミュニティではあまり注目されていない。
したがって、上記の問題を解決するために不均一性を適切に探求し、活用し、データ分析を支援する。
本研究では,予測機構と共変量分布の不均一性である推薦データにおける不均一性の2つの代表的なカテゴリを探索し,二値クラスタリング法を用いて不均質性を探索するアルゴリズムを提案する。
さらに,複数サブモデルによる予測とデビアのサポートという2つのレコメンデーションシナリオにおいて,不均一性が悪用されている。
実世界のデータに関する広範囲な実験は、レコメンデーションデータにおける異種性の存在と、レコメンデーションにおけるデータ異種性を探索し活用する効果を検証する。
関連論文リスト
- A Comprehensive Survey on Data Augmentation [55.355273602421384]
データ拡張(Data augmentation)は、既存のデータサンプルを操作することによって高品質な人工データを生成する技術である。
既存の文献調査では、特定のモダリティデータにのみ焦点が当てられている。
本稿では,異なる共通データモダリティのためのデータ拡張技術を含む,より啓蒙的な分類法を提案する。
論文 参考訳(メタデータ) (2024-05-15T11:58:08Z) - Causality and Independence Enhancement for Biased Node Classification [56.38828085943763]
各種グラフニューラルネットワーク(GNN)に適用可能な新しい因果性・独立性向上(CIE)フレームワークを提案する。
提案手法は,ノード表現レベルでの因果的特徴と突発的特徴を推定し,突発的相関の影響を緩和する。
我々のアプローチCIEは、GNNの性能を大幅に向上するだけでなく、最先端の debiased ノード分類法よりも優れています。
論文 参考訳(メタデータ) (2023-10-14T13:56:24Z) - Predictive Heterogeneity: Measures and Applications [26.85283526483783]
本稿では,モデルキャパシティと計算制約を考慮した表現可能な予測不均一性を提案する。
ほぼ正しい(PAC)境界を持つ有限データから確実に推定できることを示す。
実験的に、探索された異質性は、所得予測、収量予測、画像分類タスクにおけるサブ人口区分に関する洞察を提供する。
論文 参考訳(メタデータ) (2023-04-01T12:20:06Z) - Robust Direct Learning for Causal Data Fusion [14.462235940634969]
我々は、他のニュアンス関数から処理効果を分離するマルチソースデータを統合するためのフレームワークを提供する。
また,半パラメトリック効率理論の理論的洞察に基づく因果情報認識重み付け関数を提案する。
論文 参考訳(メタデータ) (2022-11-01T03:33:22Z) - Rethinking Data Heterogeneity in Federated Learning: Introducing a New
Notion and Standard Benchmarks [65.34113135080105]
我々は、現在のセットアップにおけるデータ不均一性の問題が必ずしも問題であるだけでなく、FL参加者にとって有益であることを示す。
私たちの観察は直感的である。
私たちのコードはhttps://github.com/MMorafah/FL-SC-NIIDで利用可能です。
論文 参考訳(メタデータ) (2022-09-30T17:15:19Z) - Scalable Regularised Joint Mixture Models [2.0686407686198263]
多くの応用において、データは異なる基底分布を持つ潜在群にまたがるという意味で不均一である。
我々は,(i)明示的多変量特徴分布,(ii)高次元回帰モデル,(iii)潜在群ラベルの連成学習を可能にする異種データに対するアプローチを提案する。
このアプローチは明らかに高次元において有効であり、計算効率のためのデータ削減と、特徴数が大きければ鍵信号を保持する再重み付けスキームを組み合わせる。
論文 参考訳(メタデータ) (2022-05-03T13:38:58Z) - Heterogeneous Contrastive Learning [45.93509060683946]
重み付けされた教師なしのコントラスト損失と重み付けされた教師付きコントラスト損失を組み合わせた統一的異種学習フレームワークを提案する。
実世界のデータセットを用いた実験結果から,提案手法の有効性と有効性を示した。
論文 参考訳(メタデータ) (2021-05-19T21:01:41Z) - Heteroskedastic and Imbalanced Deep Learning with Adaptive
Regularization [55.278153228758434]
実世界のデータセットはヘテロスケダティックで不均衡である。
ヘテロスケダスティック性と不均衡を同時に扱うことは、未発見である。
本稿ではヘテロスケダスティックデータセットに対するデータ依存正規化手法を提案する。
論文 参考訳(メタデータ) (2020-06-29T01:09:50Z) - On the Benefits of Invariance in Neural Networks [56.362579457990094]
データ拡張によるトレーニングは、リスクとその勾配をよりよく見積もることを示し、データ拡張でトレーニングされたモデルに対して、PAC-Bayes一般化を提供する。
また,データ拡張と比べ,平均化は凸損失を伴う場合の一般化誤差を低減し,PAC-Bayes境界を狭めることを示した。
論文 参考訳(メタデータ) (2020-05-01T02:08:58Z) - Meta-analysis of heterogeneous data: integrative sparse regression in
high-dimensions [21.162280861396205]
本稿では,データソースが類似しているが識別できない高次元環境におけるメタ分析の課題について考察する。
異質性の存在下での解釈可能性と統計的効率を重視したグローバルパラメータを導入する。
いくつかの異なる癌細胞株を含む大規模薬物治療データセットに対するアプローチの利点を実証する。
論文 参考訳(メタデータ) (2019-12-26T20:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。