論文の概要: Infinite Recommendation Networks: A Data-Centric Approach
- arxiv url: http://arxiv.org/abs/2206.02626v1
- Date: Fri, 3 Jun 2022 00:34:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-12 20:01:28.424872
- Title: Infinite Recommendation Networks: A Data-Centric Approach
- Title(参考訳): 無限レコメンデーションネットワーク:データ中心のアプローチ
- Authors: Noveen Sachdeva, Mehak Preet Dhaliwal, Carole-Jean Wu, Julian McAuley
- Abstract要約: Neural Tangent Kernelを活用して、無限大のニューラルネットワークをトレーニングし、無限大のボトルネック層を持つオートエンコーダであるinfty$-AEを考案します。
また、小型で高忠実なデータ要約を合成するためのDistill-CFを開発した。
我々は、最初のデータセットサイズの0.1%に満たない完全なデータセット上で、infty$-AEのパフォーマンスの96-105%を観察した。
- 参考スコア(独自算出の注目度): 8.044430277912936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We leverage the Neural Tangent Kernel and its equivalence to training
infinitely-wide neural networks to devise $\infty$-AE: an autoencoder with
infinitely-wide bottleneck layers. The outcome is a highly expressive yet
simplistic recommendation model with a single hyper-parameter and a closed-form
solution. Leveraging $\infty$-AE's simplicity, we also develop Distill-CF for
synthesizing tiny, high-fidelity data summaries which distill the most
important knowledge from the extremely large and sparse user-item interaction
matrix for efficient and accurate subsequent data-usage like model training,
inference, architecture search, etc. This takes a data-centric approach to
recommendation, where we aim to improve the quality of logged user-feedback
data for subsequent modeling, independent of the learning algorithm. We
particularly utilize the concept of differentiable Gumbel-sampling to handle
the inherent data heterogeneity, sparsity, and semi-structuredness, while being
scalable to datasets with hundreds of millions of user-item interactions. Both
of our proposed approaches significantly outperform their respective
state-of-the-art and when used together, we observe 96-105% of $\infty$-AE's
performance on the full dataset with as little as 0.1% of the original dataset
size, leading us to explore the counter-intuitive question: Is more data what
you need for better recommendation?
- Abstract(参考訳): 我々はNeural Tangent Kernelとその等価性を利用して、無限大のニューラルネットワークをトレーニングし、無限大のボトルネック層を持つオートエンコーダである$\infty$-AEを考案する。
結果は、非常に表現力が高く、単純なレコメンデーションモデルであり、単一のハイパーパラメータとクローズドフォームのソリューションである。
また,$\infty$-ae の単純さを活かし,超大規模かつスパースなユーザ-テーマインタラクションマトリックスから最も重要な知識を抽出し,モデルトレーニングや推論,アーキテクチャ検索など,その後のデータ利用を効率的かつ正確なものにする,小型で忠実なデータ要約を合成する distill-cf を開発した。
これはデータ中心のアプローチを推奨し、学習アルゴリズムとは独立して、その後のモデリングのためにログ化されたユーザフィードバックデータの品質を改善することを目的としています。
特に差別化可能なGumbel-samplingという概念を利用して、数億のユーザとイテムのインタラクションを持つデータセットにスケーラブルでありながら、データ固有の均一性、疎性、半構造化を扱う。
提案されたアプローチはいずれもそれぞれの最先端を著しく上回り、同時に使用すると、元のデータセットサイズの0.1%に満たないフルデータセット上での$\infty$-AEのパフォーマンスの96~105%が観察されます。
関連論文リスト
- Leveraging Variation Theory in Counterfactual Data Augmentation for Optimized Active Learning [19.962212551963383]
アクティブラーニング(AL)は、モデルがユーザフィードバックからインタラクティブに学習することを可能にする。
本稿では,ALに反実データ拡張手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T14:55:04Z) - Data curation via joint example selection further accelerates multimodal learning [3.329535792151987]
サンプルを個別に選択するよりも,データのバッチを共同で選択することが学習に有効であることを示す。
このようなバッチを選択するための単純かつトラクタブルなアルゴリズムを導出し、個別に優先順位付けされたデータポイントを超えてトレーニングを著しく加速する。
論文 参考訳(メタデータ) (2024-06-25T16:52:37Z) - Generative Expansion of Small Datasets: An Expansive Graph Approach [13.053285552524052]
最小限のサンプルから大規模で情報豊富なデータセットを生成する拡張合成モデルを提案する。
自己アテンション層と最適なトランスポートを持つオートエンコーダは、分散一貫性を洗練させる。
結果は同等のパフォーマンスを示し、モデルがトレーニングデータを効果的に増強する可能性を示している。
論文 参考訳(メタデータ) (2024-06-25T02:59:02Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Condensing Graphs via One-Step Gradient Matching [50.07587238142548]
ネットワーク重みを訓練せずに1ステップのみの勾配マッチングを行う1ステップ勾配マッチング方式を提案する。
我々の理論的分析は、この戦略が実際のグラフの分類損失を減少させる合成グラフを生成することができることを示している。
特に、元のパフォーマンスの最大98%を近似しながら、データセットサイズを90%削減することが可能です。
論文 参考訳(メタデータ) (2022-06-15T18:20:01Z) - Model Composition: Can Multiple Neural Networks Be Combined into a
Single Network Using Only Unlabeled Data? [6.0945220518329855]
本稿では,ラベルなしデータを用いた複数のトレーニングニューラルネットワークの組み合わせについて検討する。
提案手法は, ラベルのないデータから収集した疑似ラベルの生成, フィルタリング, 集約を利用する。
本手法は任意のアーキテクチャとカテゴリを持つ任意の入力モデルの使用をサポートする。
論文 参考訳(メタデータ) (2021-10-20T04:17:25Z) - Learning a Self-Expressive Network for Subspace Clustering [15.096251922264281]
本稿では,データ表現の自己表現を学習するために,適切に設計されたニューラルネットワークを用いた,自己表現型ネットワーク(SENet)と呼ばれる,サブスペースクラスタリングのための新しいフレームワークを提案する。
私たちのSENetは、トレーニングデータに望ましい特性を持つ自己表現係数を学習するだけでなく、サンプル外のデータも処理します。
特に、SENetはMNIST、Fashion MNIST、Extended MNISTで高い競争力を発揮し、CIFAR-10で最先端のパフォーマンスを得る。
論文 参考訳(メタデータ) (2021-10-08T18:06:06Z) - Solving Mixed Integer Programs Using Neural Networks [57.683491412480635]
本稿では,mipソルバの2つのキーサブタスクに学習を適用し,高品質なジョイント変数割当を生成し,その割当と最適課題との客観的値の差を限定する。
提案手法は,ニューラルネットワークに基づく2つのコンポーネントであるニューラルダイバーディングとニューラルブランチを構築し,SCIPなどのベースMIPソルバで使用する。
2つのGoogle生産データセットとMIPLIBを含む6つの現実世界データセットに対するアプローチを評価し、それぞれに別々のニューラルネットワークをトレーニングする。
論文 参考訳(メタデータ) (2020-12-23T09:33:11Z) - S^3-Rec: Self-Supervised Learning for Sequential Recommendation with
Mutual Information Maximization [104.87483578308526]
本稿では,シーケンスレコメンデーションのための自己改善学習のためのモデルS3-Recを提案する。
そこで本稿では,属性,項目,サブシーケンス,シーケンス間の相関関係を学習するために,4つの補助的自己教師対象を考案する。
6つの実世界のデータセットで実施された大規模な実験は、既存の最先端手法よりも提案手法が優れていることを示す。
論文 参考訳(メタデータ) (2020-08-18T11:44:10Z) - AutoSimulate: (Quickly) Learning Synthetic Data Generation [70.82315853981838]
目的の新たな微分可能近似に基づく最適な合成データ生成法を提案する。
提案手法は,学習データ生成の高速化(最大50Times$)と,実世界のテストデータセットの精度向上(+8.7%$)を実現している。
論文 参考訳(メタデータ) (2020-08-16T11:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。