論文の概要: Sequence Adaptation via Reinforcement Learning in Recommender Systems
- arxiv url: http://arxiv.org/abs/2108.01442v1
- Date: Sat, 31 Jul 2021 13:56:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-05 03:33:03.373770
- Title: Sequence Adaptation via Reinforcement Learning in Recommender Systems
- Title(参考訳): Recommenderシステムにおける強化学習によるシーケンス適応
- Authors: Stefanos Antaris, Dimitrios Rafailidis
- Abstract要約: そこで我々は,SARモデルを提案する。SARモデルは,ユーザとイテムの相互作用のシーケンス長をパーソナライズされた方法で調整する。
さらに,逐次レコメンデーションの精度を批評家ネットワークの予測累積報酬と整合させるために,共同損失関数を最適化する。
実世界の4つのデータセットに対する実験的な評価は,提案モデルがいくつかのベースラインアプローチよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 8.909115457491522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accounting for the fact that users have different sequential patterns, the
main drawback of state-of-the-art recommendation strategies is that a fixed
sequence length of user-item interactions is required as input to train the
models. This might limit the recommendation accuracy, as in practice users
follow different trends on the sequential recommendations. Hence, baseline
strategies might ignore important sequential interactions or add noise to the
models with redundant interactions, depending on the variety of users'
sequential behaviours. To overcome this problem, in this study we propose the
SAR model, which not only learns the sequential patterns but also adjusts the
sequence length of user-item interactions in a personalized manner. We first
design an actor-critic framework, where the RL agent tries to compute the
optimal sequence length as an action, given the user's state representation at
a certain time step. In addition, we optimize a joint loss function to align
the accuracy of the sequential recommendations with the expected cumulative
rewards of the critic network, while at the same time we adapt the sequence
length with the actor network in a personalized manner. Our experimental
evaluation on four real-world datasets demonstrates the superiority of our
proposed model over several baseline approaches. Finally, we make our
implementation publicly available at https://github.com/stefanosantaris/sar.
- Abstract(参考訳): ユーザが異なるシーケンシャルパターンを持つという事実を考慮すると、最先端のレコメンデーション戦略の主な欠点は、モデルのトレーニングに入力としてユーザとイテムインタラクションの固定シーケンス長が必要であることである。
これはレコメンデーションの精度を制限し、実際にはユーザーはシーケンシャルなレコメンデーションで異なるトレンドに従う。
したがって、ベースライン戦略は重要なシーケンシャルなインタラクションを無視したり、ユーザーのシーケンシャルな振る舞いに応じて冗長なインタラクションを持つモデルにノイズを加えることができる。
そこで本研究では,SARモデルを提案する。SARモデルはシーケンスパターンを学習するだけでなく,パーソナライズされた方法でユーザ同士のインタラクションのシーケンス長を調整する。
まず,ユーザの状態表現を一定の時間ステップで考慮し,rlエージェントが最適なシーケンス長をアクションとして計算しようとするアクタ-クリティックフレームワークを設計する。
さらに,コンピテンシーレコメンデーションの精度を批評家ネットワークの期待累積報酬と整合させると共に,アクターネットワークとのシーケンス長をパーソナライズした方法で適応させるように,共同損失関数を最適化する。
実世界の4つのデータセットに対する実験により,提案モデルがいくつかのベースラインアプローチよりも優れていることを示す。
最後に、実装をhttps://github.com/stefanosantaris/sarで公開しています。
関連論文リスト
- AdaptSSR: Pre-training User Model with Augmentation-Adaptive
Self-Supervised Ranking [19.1857792382924]
本稿では,Augmentation-Supervised Ranking (AdaptSSR)を提案する。
我々は、暗黙的に拡張されたビュー、明示的な拡張されたビュー、および他のユーザからのビューの類似性の順序をキャプチャするために、ユーザモデルを訓練する複数のペアランキング損失を採用する。
6つの下流タスクを持つパブリックデータセットとインダストリアルデータセットの実験は、AdaptSSRの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-15T02:19:28Z) - Latent User Intent Modeling for Sequential Recommenders [92.66888409973495]
逐次リコメンデータモデルは、プラットフォーム上での氏のインタラクション履歴に基づいて、ユーザが次に対話する可能性のあるアイテムを予測することを学習する。
しかし、ほとんどのシーケンシャルなレコメンデータは、ユーザの意図に対する高いレベルの理解を欠いている。
したがって、インテントモデリングはユーザー理解と長期ユーザーエクスペリエンスの最適化に不可欠である。
論文 参考訳(メタデータ) (2022-11-17T19:00:24Z) - Ordinal Graph Gamma Belief Network for Social Recommender Systems [54.9487910312535]
我々は,階層型ベイズモデルであるオーディナルグラフファクター解析(OGFA)を開発し,ユーザ・イテムとユーザ・ユーザインタラクションを共同でモデル化する。
OGFAは、優れたレコメンデーションパフォーマンスを達成するだけでなく、代表ユーザの好みに応じた解釈可能な潜在因子も抽出する。
我々はOGFAを,マルチ確率層深層確率モデルであるオーディナルグラフガンマ信念ネットワークに拡張する。
論文 参考訳(メタデータ) (2022-09-12T09:19:22Z) - Modeling Dynamic User Preference via Dictionary Learning for Sequential
Recommendation [133.8758914874593]
ユーザの好みのダイナミックさを捉えることは、ユーザの将来の行動を予測する上で非常に重要です。
浅いものも深いものも含む、既存のレコメンデーションアルゴリズムの多くは、このようなダイナミクスを独立してモデル化することが多い。
本稿では、ユーザのシーケンシャルな振る舞いを、ユーザ好みの潜伏した空間に埋め込むことの問題について考察する。
論文 参考訳(メタデータ) (2022-04-02T03:23:46Z) - Sequential Search with Off-Policy Reinforcement Learning [48.88165680363482]
本稿では,RNN学習フレームワークとアテンションモデルからなる,スケーラブルなハイブリッド学習モデルを提案する。
新たな最適化のステップとして、1つのRNNパスに複数の短いユーザシーケンスをトレーニングバッチ内に収める。
また、マルチセッションパーソナライズされた検索ランキングにおける非政治強化学習の利用についても検討する。
論文 参考訳(メタデータ) (2022-02-01T06:52:40Z) - Hyper Meta-Path Contrastive Learning for Multi-Behavior Recommendation [61.114580368455236]
マルチビヘイビア情報によるユーザ購入予測は、現在のレコメンデーションシステムでは難しい問題である。
本稿では,ハイパーメタパスやハイパーメタグラフを構築するためのハイパーメタパスの概念を提案する。
最近のグラフコントラスト学習の成功により、異なる振る舞い間の依存関係を理解するために固定されたスキームを割り当てるのではなく、ユーザ行動パターンの埋め込みを適応的に学習する。
論文 参考訳(メタデータ) (2021-09-07T04:28:09Z) - Contrastive Self-supervised Sequential Recommendation with Robust
Augmentation [101.25762166231904]
Sequential Recommendation Describes a set of technique to model dynamic user behavior to order to predict future interaction in sequence user data。
データスパーシリティやノイズの多いデータなど、古くて新しい問題はまだ残っている。
逐次レコメンデーション(CoSeRec)のためのコントラスト型自己監督学習を提案する。
論文 参考訳(メタデータ) (2021-08-14T07:15:25Z) - Denoising User-aware Memory Network for Recommendation [11.145186013006375]
我々はDUMN(Denoising User-Aware memory network)という新しいCTRモデルを提案する。
DUMNは明示的なフィードバックの表現を使用して、暗黙的なフィードバックの表現を浄化し、暗黙的なフィードバックを効果的に軽視する。
2つの実際のEコマースユーザ行動データセットの実験は、DUMNが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2021-07-12T14:39:36Z) - Position-enhanced and Time-aware Graph Convolutional Network for
Sequential Recommendations [3.286961611175469]
我々は、位置対応と時間対応のグラフ畳み込みネットワーク(PTGCN)に基づく、深層学習に基づくシーケンシャルレコメンデーションアプローチを提案する。
PTGCNは、位置対応と時間対応のグラフ畳み込み演算を定義することにより、ユーザとイテム相互作用間の逐次パターンと時間ダイナミクスをモデル化する。
多層グラフ畳み込みを積み重ねることで、ユーザとアイテム間の高次接続を実現する。
論文 参考訳(メタデータ) (2021-07-12T07:34:20Z) - Sequential recommendation with metric models based on frequent sequences [0.688204255655161]
提案手法では,ユーザ履歴の最も関連性の高い部分を特定するために,頻繁なシーケンスを用いることを提案する。
最も健全なアイテムは、ユーザの好みとシーケンシャルなダイナミクスに基づいてアイテムを埋め込む統合されたメトリックモデルで使用される。
論文 参考訳(メタデータ) (2020-08-12T22:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。