論文の概要: Sequential Search with Off-Policy Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2202.00245v1
- Date: Tue, 1 Feb 2022 06:52:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-02 23:05:17.310685
- Title: Sequential Search with Off-Policy Reinforcement Learning
- Title(参考訳): オフポリシー強化学習による逐次探索
- Authors: Dadong Miao, Yanan Wang, Guoyu Tang, Lin Liu, Sulong Xu, Bo Long, Yun
Xiao, Lingfei Wu, Yunjiang Jiang
- Abstract要約: 本稿では,RNN学習フレームワークとアテンションモデルからなる,スケーラブルなハイブリッド学習モデルを提案する。
新たな最適化のステップとして、1つのRNNパスに複数の短いユーザシーケンスをトレーニングバッチ内に収める。
また、マルチセッションパーソナライズされた検索ランキングにおける非政治強化学習の利用についても検討する。
- 参考スコア(独自算出の注目度): 48.88165680363482
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have seen a significant amount of interests in Sequential
Recommendation (SR), which aims to understand and model the sequential user
behaviors and the interactions between users and items over time. Surprisingly,
despite the huge success Sequential Recommendation has achieved, there is
little study on Sequential Search (SS), a twin learning task that takes into
account a user's current and past search queries, in addition to behavior on
historical query sessions. The SS learning task is even more important than the
counterpart SR task for most of E-commence companies due to its much larger
online serving demands as well as traffic volume.
To this end, we propose a highly scalable hybrid learning model that consists
of an RNN learning framework leveraging all features in short-term user-item
interactions, and an attention model utilizing selected item-only features from
long-term interactions. As a novel optimization step, we fit multiple short
user sequences in a single RNN pass within a training batch, by solving a
greedy knapsack problem on the fly. Moreover, we explore the use of off-policy
reinforcement learning in multi-session personalized search ranking.
Specifically, we design a pairwise Deep Deterministic Policy Gradient model
that efficiently captures users' long term reward in terms of pairwise
classification error. Extensive ablation experiments demonstrate significant
improvement each component brings to its state-of-the-art baseline, on a
variety of offline and online metrics.
- Abstract(参考訳): 近年,逐次的ユーザ行動とユーザとアイテム間のインタラクションを時間とともに理解し,モデル化することを目的とした,逐次的レコメンデーション(Sequential Recommendation, SR)への関心が高まっている。
驚くべきことに、逐次的レコメンデーションが大きな成功を収めたにも関わらず、ユーザーの現在および過去の検索クエリを考慮に入れる2つの学習タスクであるシーケンシャル検索(ss)について、過去のクエリセッションでの振る舞いに加えて、ほとんど研究されていない。
ss学習タスクは、オンラインサービスの需要が大きく、トラフィック量も大きいため、ほとんどのe-commence企業にとってsrタスクよりも重要である。
そこで本稿では,RNN学習フレームワークを短期間のユーザ・イテムインタラクションで活用した高度にスケーラブルなハイブリッド学習モデルと,長期のインタラクションから選択した項目のみの機能を活用したアテンションモデルを提案する。
新たな最適化ステップとして,学習バッチ内の1つのrnnパスに複数の短いユーザシーケンスを配置し,グルーディ・ナップサック問題をオンザフライで解決する。
さらに,マルチセッションパーソナライズされた検索ランキングにおけるオフ・ポリティクス強化学習の利用について検討する。
具体的には,ペアワイズ分類誤差の観点でユーザの長期的な報酬を効果的に獲得する,ペアワイズ深い決定論的ポリシー勾配モデルを設計する。
大規模なアブレーション実験は、さまざまなオフラインおよびオンラインメトリクスに基づいて、各コンポーネントが最先端のベースラインに大幅な改善をもたらすことを示している。
関連論文リスト
- Multi-granularity Interest Retrieval and Refinement Network for Long-Term User Behavior Modeling in CTR Prediction [68.90783662117936]
クリックスルーレート(CTR)の予測は、オンラインパーソナライズプラットフォームにとって不可欠である。
近年の進歩は、リッチなユーザの振る舞いをモデル化することで、CTR予測の性能を大幅に改善できることを示している。
マルチグラニュラリティ興味検索ネットワーク(MIRRN)を提案する。
論文 参考訳(メタデータ) (2024-11-22T15:29:05Z) - SEMINAR: Search Enhanced Multi-modal Interest Network and Approximate Retrieval for Lifelong Sequential Recommendation [16.370075234443245]
本稿では,SEMINAR-Search Enhanced Multi-Modal Interest Network と Approximate Retrieval という,一生涯にわたるマルチモーダルシーケンスモデルを提案する。
具体的には、Pretraining Search Unitと呼ばれるネットワークが、事前トレーニング-ファインタニング方式で、マルチモーダルクエリ-イテムペアの寿命のシーケンスを学習する。
マルチモーダル埋め込みのオンライン検索速度を高速化するために,マルチモーダルなコードブックベースの製品量子化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-15T13:33:30Z) - SA-LSPL:Sequence-Aware Long- and Short- Term Preference Learning for next POI recommendation [19.40796508546581]
Point of Interest(POI)推奨は、特定のタイミングでユーザに対してPOIを推奨することを目的としている。
提案する手法は,SA-LSPL(Sequence-Aware Long- and Short-Term Preference Learning)である。
論文 参考訳(メタデータ) (2024-03-30T13:40:25Z) - Multi-Behavior Sequential Recommendation with Temporal Graph Transformer [66.10169268762014]
マルチビヘイビア・インタラクティブなパターンを意識した動的ユーザ・イテム関係学習に取り組む。
本稿では,動的短期および長期のユーザ・イテム対話パターンを共同でキャプチャする,TGT(Temporal Graph Transformer)レコメンデーションフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-06T15:42:54Z) - Boosting the Learning for Ranking Patterns [6.142272540492935]
本稿では,多基準意思決定問題として,パターンランキング関数の学習問題を定式化する。
本手法は,対話型学習手法を用いて,異なる興味度尺度を1つの重み付き線形ランキング関数に集約する。
良く知られたデータセットを用いて行った実験は、我々のアプローチが実行時間を著しく短縮し、正確なパターンランキングを返すことを示している。
論文 参考訳(メタデータ) (2022-03-05T10:22:44Z) - Hyper Meta-Path Contrastive Learning for Multi-Behavior Recommendation [61.114580368455236]
マルチビヘイビア情報によるユーザ購入予測は、現在のレコメンデーションシステムでは難しい問題である。
本稿では,ハイパーメタパスやハイパーメタグラフを構築するためのハイパーメタパスの概念を提案する。
最近のグラフコントラスト学習の成功により、異なる振る舞い間の依存関係を理解するために固定されたスキームを割り当てるのではなく、ユーザ行動パターンの埋め込みを適応的に学習する。
論文 参考訳(メタデータ) (2021-09-07T04:28:09Z) - Sequence Adaptation via Reinforcement Learning in Recommender Systems [8.909115457491522]
そこで我々は,SARモデルを提案する。SARモデルは,ユーザとイテムの相互作用のシーケンス長をパーソナライズされた方法で調整する。
さらに,逐次レコメンデーションの精度を批評家ネットワークの予測累積報酬と整合させるために,共同損失関数を最適化する。
実世界の4つのデータセットに対する実験的な評価は,提案モデルがいくつかのベースラインアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-07-31T13:56:46Z) - Dynamic Memory based Attention Network for Sequential Recommendation [79.5901228623551]
DMAN(Dynamic Memory-based Attention Network)と呼ばれる新しい連続的推薦モデルを提案する。
長い動作シーケンス全体を一連のサブシーケンスに分割し、モデルをトレーニングし、ユーザの長期的な利益を維持するためにメモリブロックのセットを維持する。
動的メモリに基づいて、ユーザの短期的および長期的関心を明示的に抽出し、組み合わせて効率的な共同推薦を行うことができる。
論文 参考訳(メタデータ) (2021-02-18T11:08:54Z) - Dynamic Embeddings for Interaction Prediction [2.5758502140236024]
推薦システム(RS)では、ユーザが対話する次の項目を予測することが、ユーザの保持に不可欠である。
近年,ユーザとアイテム間の相互相互作用を個別のユーザとアイテムの埋め込みを用いてモデル化する手法の有効性が示されている。
本稿では,DeePRedと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-11-10T16:04:46Z) - Sequential Recommender via Time-aware Attentive Memory Network [67.26862011527986]
本稿では,注意機構と繰り返し単位を改善するための時間ゲーティング手法を提案する。
また,長期と短期の嗜好を統合するマルチホップ・タイムアウェア・アテンテーティブ・メモリ・ネットワークを提案する。
提案手法は,候補探索タスクに対してスケーラブルであり,ドット積に基づくTop-Kレコメンデーションのための潜在因数分解の非線形一般化とみなすことができる。
論文 参考訳(メタデータ) (2020-05-18T11:29:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。