論文の概要: Rethinking Collaborative Metric Learning: Toward an Efficient
Alternative without Negative Sampling
- arxiv url: http://arxiv.org/abs/2206.11549v1
- Date: Thu, 23 Jun 2022 08:50:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-24 21:44:30.302757
- Title: Rethinking Collaborative Metric Learning: Toward an Efficient
Alternative without Negative Sampling
- Title(参考訳): 協調的メトリクス学習の再考:負のサンプリングを伴わない効率的な代替手段を目指して
- Authors: Shilong Bao, Qianqian Xu, Zhiyong Yang, Xiaochun Cao, Qingming Huang
- Abstract要約: コラボレーティブ・メトリック・ラーニング(CML)パラダイムはレコメンデーション・システム(RS)分野に広く関心を集めている。
負のサンプリングが一般化誤差のバイアス付き推定に繋がることがわかった。
そこで我々は,SFCML (textitSampling-Free Collaborative Metric Learning) という名前のCMLに対して,負のサンプリングを伴わない効率的な手法を提案する。
- 参考スコア(独自算出の注目度): 156.7248383178991
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recently proposed Collaborative Metric Learning (CML) paradigm has
aroused wide interest in the area of recommendation systems (RS) owing to its
simplicity and effectiveness. Typically, the existing literature of CML depends
largely on the \textit{negative sampling} strategy to alleviate the
time-consuming burden of pairwise computation. However, in this work, by taking
a theoretical analysis, we find that negative sampling would lead to a biased
estimation of the generalization error. Specifically, we show that the
sampling-based CML would introduce a bias term in the generalization bound,
which is quantified by the per-user \textit{Total Variance} (TV) between the
distribution induced by negative sampling and the ground truth distribution.
This suggests that optimizing the sampling-based CML loss function does not
ensure a small generalization error even with sufficiently large training data.
Moreover, we show that the bias term will vanish without the negative sampling
strategy. Motivated by this, we propose an efficient alternative without
negative sampling for CML named \textit{Sampling-Free Collaborative Metric
Learning} (SFCML), to get rid of the sampling bias in a practical sense.
Finally, comprehensive experiments over seven benchmark datasets speak to the
superiority of the proposed algorithm.
- Abstract(参考訳): 最近提案されたCML(Collaborative Metric Learning)パラダイムは,その単純さと有効性から,レコメンデーションシステム(RS)の領域に広く関心を集めている。
典型的には、cmlの既存の文献は、ペアワイズ計算の時間を消費する負担を軽減するための \textit{negative sampling} 戦略に大きく依存している。
しかし、この研究において、理論的解析により、負のサンプリングが一般化誤差のバイアス付き推定につながることが判明した。
具体的には, サンプルベースCMLは, 偏差項を一般化境界に導入し, 負のサンプリングによって誘導される分布と基底の真理分布の間のユーザあたりのtextit{Total Variance} (TV) で定量化することを示した。
このことから,サンプルベースCML損失関数の最適化は,十分なトレーニングデータであっても,小さな一般化誤差を保証できないことが示唆された。
さらに, 負のサンプリング戦略を使わずにバイアス項が消滅することを示す。
そこで本研究では,SFCML (textit{Sampling-Free Collaborative Metric Learning}) と呼ばれる CML に対して,サンプルバイアスを効果的に除去する手法を提案する。
最後に、7つのベンチマークデータセットに対する包括的な実験は、提案アルゴリズムの優位性を示す。
関連論文リスト
- Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods [59.779795063072655]
CoT(Chain-of-Thought)の促進とその変種は、多段階推論問題を解決する効果的な方法として人気を集めている。
統計的推定の観点からCoTのプロンプトを解析し,その複雑さを包括的に評価する。
論文 参考訳(メタデータ) (2024-08-25T04:07:18Z) - Test-Time Distribution Normalization for Contrastively Learned
Vision-language Models [39.66329310098645]
CLIPとして最近提案された最も代表的なアプローチの1つは、その有効性のために広く採用されている。
本稿では,ドット製品のダウンストリーム化は最適化目標の0次近似に過ぎず,テスト時間中に情報が失われることを明らかにする。
本研究では, 分散正規化(DN)を提案し, テストサンプルのバッチの平均表現を近似し, InfoNCE損失における負のサンプルと類似するものを表現する。
論文 参考訳(メタデータ) (2023-02-22T01:14:30Z) - Information Theoretical Importance Sampling Clustering [18.248246885248733]
多くのクラスタリング手法の現在の仮定は、トレーニングデータと将来のデータが同じ分布から取られるというものである。
我々は,クラスタリング問題(itisC)に対する情報理論的重要度サンプリングに基づくアプローチを提案する。
合成データセットの実験結果と実世界の負荷予測問題により,提案モデルの有効性が検証された。
論文 参考訳(メタデータ) (2023-02-09T03:18:53Z) - Asymptotically Unbiased Instance-wise Regularized Partial AUC
Optimization: Theory and Algorithm [101.44676036551537]
One-way partial AUC (OPAUC) と Two-way partial AUC (TPAUC) はバイナリ分類器の平均性能を測定する。
既存の手法のほとんどはPAUCをほぼ最適化するしかなく、制御不能なバイアスにつながる。
本稿では,分散ロバスト最適化AUCによるPAUC問題の簡易化について述べる。
論文 参考訳(メタデータ) (2022-10-08T08:26:22Z) - Hard Negative Sampling via Regularized Optimal Transport for Contrastive
Representation Learning [13.474603286270836]
本研究では、教師なしコントラスト表現学習のためのハードネガティブサンプリング分布の設計問題について検討する。
本稿では,最大(Worst-case)一般化されたコントラスト学習損失を最小限に抑える表現を求める新しいmin-maxフレームワークの提案と解析を行う。
論文 参考訳(メタデータ) (2021-11-04T21:25:24Z) - Nonuniform Negative Sampling and Log Odds Correction with Rare Events
Data [15.696653979226113]
不均衡なデータに対する非一様負サンプリングによるパラメータ推定の問題について検討する。
一般逆確率重み付き(IPW)推定器を導出し,その分散を最小化する最適なサンプリング確率を得る。
理論的および実証的な結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-10-25T15:37:22Z) - Unrolling Particles: Unsupervised Learning of Sampling Distributions [102.72972137287728]
粒子フィルタリングは複素系の優れた非線形推定を計算するために用いられる。
粒子フィルタは様々なシナリオにおいて良好な推定値が得られることを示す。
論文 参考訳(メタデータ) (2021-10-06T16:58:34Z) - Rethinking InfoNCE: How Many Negative Samples Do You Need? [54.146208195806636]
半定量的理論フレームワークを用いて, InfoNCE に最適化された負のサンプル数について検討した。
トレーニングの有効性関数を最大化する$K$値を用いて,最適負サンプリング比を推定する。
論文 参考訳(メタデータ) (2021-05-27T08:38:29Z) - Simplify and Robustify Negative Sampling for Implicit Collaborative
Filtering [42.832851785261894]
本稿では,まず,モデル学習において潜在的に重要な事例が少数存在することを実証的に観察し,ネガティブな事例を新たに理解する。
次に、メモリに格納された高分散サンプルを好んで、修正されていない偽陰性問題に取り組む。
2つの合成データセットと3つの実世界のデータセットの実証結果は、我々の負サンプリング法の堅牢性と優位性を示している。
論文 参考訳(メタデータ) (2020-09-07T19:08:26Z) - Understanding Negative Sampling in Graph Representation Learning [87.35038268508414]
最適化目標と結果のばらつきを決定するためには, 正のサンプリングと同様に負のサンプリングが重要であることを示す。
我々は,自己コントラスト近似による正の分布を近似し,メトロポリス・ハスティングスによる負のサンプリングを高速化するメトロポリス・ハスティングス(MCNS)を提案する。
提案手法は,リンク予測,ノード分類,パーソナライズドレコメンデーションを含む,下流グラフ学習タスクをカバーする5つのデータセットに対して評価する。
論文 参考訳(メタデータ) (2020-05-20T06:25:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。