論文の概要: The Limits of Graph Samplers for Training Inductive Recommender Systems: Extended results
- arxiv url: http://arxiv.org/abs/2505.14241v1
- Date: Tue, 20 May 2025 11:47:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.148167
- Title: The Limits of Graph Samplers for Training Inductive Recommender Systems: Extended results
- Title(参考訳): インダクティブレコメンダシステムの学習におけるグラフサンプリングの限界:拡張結果
- Authors: Theis E. Jendal, Matteo Lissandrini, Peter Dolog, Katja Hose,
- Abstract要約: 我々は、グラフベースのレコメンデータシステム、すなわち、データを異種ネットワークとしてモデル化するシステムに焦点を当てる。
他の応用では、グラフサンプリングはサブグラフを研究し、その結果を元のグラフに一般化することができる。
トレーニングデータの50%しか使用せず,最大86%のトレーニング時間でパフォーマンスを維持できることがわかった。
- 参考スコア(独自算出の注目度): 9.009799562655243
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Inductive Recommender Systems are capable of recommending for new users and with new items thus avoiding the need to retrain after new data reaches the system. However, these methods are still trained on all the data available, requiring multiple days to train a single model, without counting hyperparameter tuning. In this work we focus on graph-based recommender systems, i.e., systems that model the data as a heterogeneous network. In other applications, graph sampling allows to study a subgraph and generalize the findings to the original graph. Thus, we investigate the applicability of sampling techniques for this task. We test on three real world datasets, with three state-of-the-art inductive methods, and using six different sampling methods. We find that its possible to maintain performance using only 50% of the training data with up to 86% percent decrease in training time; however, using less training data leads to far worse performance. Further, we find that when it comes to data for recommendations, graph sampling should also account for the temporal dimension. Therefore, we find that if higher data reduction is needed, new graph based sampling techniques should be studied and new inductive methods should be designed.
- Abstract(参考訳): インダクティブ・リコメンダ・システム(Inductive Recommender Systems)は、新しいユーザや新しいアイテムを推奨できるので、新しいデータがシステムに到達した後に再トレーニングする必要はない。
しかしながら、これらの方法は利用可能なすべてのデータに基づいてトレーニングされており、ハイパーパラメータチューニングをカウントすることなく、単一のモデルをトレーニングするのに数日を要します。
本研究では、グラフベースのレコメンデータシステム、すなわち、データを異種ネットワークとしてモデル化するシステムに焦点を当てる。
他の応用では、グラフサンプリングはサブグラフを研究し、その結果を元のグラフに一般化することができる。
そこで本稿では,本課題に対するサンプリング手法の適用性について検討する。
実世界の3つのデータセット、最先端の3つのインダクティブ手法、および6つの異なるサンプリング手法を用いて実験を行った。
トレーニングデータの50%しか使用せず,最大86%のトレーニング時間でパフォーマンスを維持することが可能であることに気付きました。
さらに、レコメンデーションのデータに関しては、グラフサンプリングも時間次元を考慮すべきである。
したがって、データ削減が要求される場合、新しいグラフベースのサンプリング手法を研究すべきであり、新しい帰納的手法を設計する必要がある。
関連論文リスト
- Subsampling Graphs with GNN Performance Guarantees [34.32848091746629]
グラフデータセットに対する新しいサブサンプリング手法を提案する。
サブサンプルデータ上でのGNNのトレーニングは、完全なデータセットでのトレーニングと比較して、損失のバウンド増加をもたらすことを証明している。
論文 参考訳(メタデータ) (2025-02-23T20:21:16Z) - Clear Preferences Leave Traces: Reference Model-Guided Sampling for Preference Learning [59.11519451499754]
直接選好最適化(DPO)は、言語モデルと人間の選好を整合させるデファクトアプローチとして登場した。
最近の研究によると、DPOの有効性はデータ品質のトレーニングに依存している。
基準モデル確率空間は,高品質なトレーニングサンプルを自然に検出する。
論文 参考訳(メタデータ) (2025-01-25T07:21:50Z) - Enhancing Consistency and Mitigating Bias: A Data Replay Approach for Incremental Learning [93.90047628101155]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
これを解決するために、新しいタスク学習中に過去のタスクからのデータを再生する手法を提案する。
しかし、メモリの制約やデータプライバシーの問題により、実際には期待できない。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - GraphGuard: Detecting and Counteracting Training Data Misuse in Graph
Neural Networks [69.97213941893351]
グラフデータ分析におけるグラフニューラルネットワーク(GNN)の出現は、モデルトレーニング中のデータ誤用に関する重要な懸念を引き起こしている。
既存の手法は、データ誤用検出または緩和のいずれかに対応しており、主にローカルGNNモデル用に設計されている。
本稿では,これらの課題に対処するため,GraphGuardという先駆的なアプローチを導入する。
論文 参考訳(メタデータ) (2023-12-13T02:59:37Z) - Online Importance Sampling for Stochastic Gradient Optimization [33.42221341526944]
本稿では,トレーニング中のデータの重要度を効率的に計算する実用的なアルゴリズムを提案する。
また、ネットワーク出力の損失w.r.t.の導出に基づく新しいメトリクスを導入し、ミニバッチの重要度サンプリング用に設計した。
論文 参考訳(メタデータ) (2023-11-24T13:21:35Z) - Graph-Based Model-Agnostic Data Subsampling for Recommendation Systems [29.713557081485995]
データサブサンプリングはリコメンデーションシステムのトレーニングを高速化するために広く使われている。
ほとんどのサブサンプリング手法はモデルベースであり、データの重要性を測定するために事前訓練されたパイロットモデルを必要とすることが多い。
本稿では,グラフで表される入力データ構造のみを探索し,モデルに依存しないデータサブサンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-05-25T18:00:15Z) - Learning to Generate Synthetic Training Data using Gradient Matching and
Implicit Differentiation [77.34726150561087]
本稿では,深層ネットワークの訓練に要するデータ量を削減できる各種データ蒸留技術について検討する。
近年の考え方に触発されて, 生成的学習ネットワーク, 勾配マッチング, インプリシット関数理論に基づく新しいデータ蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T11:45:32Z) - Exploiting All Samples in Low-Resource Sentence Classification: Early Stopping and Initialization Parameters [6.368871731116769]
本研究では,データやモデルの再設計を伴わないラベル付きサンプルの活用方法について論じる。
重量平均化法を用いてモデルを初期化する統合手法を提案し,全てのサンプルを非バリデーション停止法を用いて訓練する。
本結果は,トレーニング戦略の重要性を強調し,低リソース環境における統合手法が第一歩となることを示唆している。
論文 参考訳(メタデータ) (2021-11-12T22:31:47Z) - S^3-Rec: Self-Supervised Learning for Sequential Recommendation with
Mutual Information Maximization [104.87483578308526]
本稿では,シーケンスレコメンデーションのための自己改善学習のためのモデルS3-Recを提案する。
そこで本稿では,属性,項目,サブシーケンス,シーケンス間の相関関係を学習するために,4つの補助的自己教師対象を考案する。
6つの実世界のデータセットで実施された大規模な実験は、既存の最先端手法よりも提案手法が優れていることを示す。
論文 参考訳(メタデータ) (2020-08-18T11:44:10Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。