論文の概要: Generator and Critic: A Deep Reinforcement Learning Approach for Slate
Re-ranking in E-commerce
- arxiv url: http://arxiv.org/abs/2005.12206v1
- Date: Mon, 25 May 2020 16:24:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 05:49:06.972071
- Title: Generator and Critic: A Deep Reinforcement Learning Approach for Slate
Re-ranking in E-commerce
- Title(参考訳): ジェネレータと批判:Eコマースにおけるスレートの深層強化学習アプローチ
- Authors: Jianxiong Wei, Anxiang Zeng, Yueqiu Wu, Peng Guo, Qingsong Hua,
Qingpeng Cai
- Abstract要約: 本稿では,新しいジェネレータと批評スレートの再評価手法を提案する。
PPO探索と呼ばれる探索強化学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 17.712394984304336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The slate re-ranking problem considers the mutual influences between items to
improve user satisfaction in e-commerce, compared with the point-wise ranking.
Previous works either directly rank items by an end to end model, or rank items
by a score function that trades-off the point-wise score and the diversity
between items. However, there are two main existing challenges that are not
well studied: (1) the evaluation of the slate is hard due to the complex mutual
influences between items of one slate; (2) even given the optimal evaluation,
searching the optimal slate is challenging as the action space is exponentially
large. In this paper, we present a novel Generator and Critic slate re-ranking
approach, where the Critic evaluates the slate and the Generator ranks the
items by the reinforcement learning approach. We propose a Full Slate Critic
(FSC) model that considers the real impressed items and avoids the impressed
bias of existing models. For the Generator, to tackle the problem of large
action space, we propose a new exploration reinforcement learning algorithm,
called PPO-Exploration. Experimental results show that the FSC model
significantly outperforms the state of the art slate evaluation methods, and
the PPO-Exploration algorithm outperforms the existing reinforcement learning
methods substantially. The Generator and Critic approach improves both the
slate efficiency(4% gmv and 5% number of orders) and diversity in live
experiments on one of the largest e-commerce websites in the world.
- Abstract(参考訳): また,電子商取引におけるユーザ満足度向上のための項目間の相互影響を,ポイントワイドランキングと比較した。
以前の作業では、アイテムをエンドツーエンドモデルで直接ランク付けするか、ポイントワイズスコアとアイテム間の多様性をトレードオフするスコア関数でランク付けする。
しかし,(1)スレートの複雑な相互影響によりスレートの評価が困難であること,(2)最適評価であっても,動作空間が指数関数的に大きいため最適スレートの探索が難しいこと,の2つの課題が十分に検討されていない。
本稿では,新しい生成元と批判的スレートの再ランク付け手法を提案する。この手法では,批判者がスレートを評価し,生成元が強化学習アプローチによって項目をランク付けする。
そこで本研究では,実際の印象的項目を考慮し,既存モデルの印象的バイアスを回避するFSCモデルを提案する。
本研究では,大規模動作空間の問題に取り組むために,ppo-explorationと呼ばれる新しい探索強化学習アルゴリズムを提案する。
実験結果から, FSCモデルは技量評価手法の状態を著しく上回り, PPO-Explorationアルゴリズムは既存の強化学習手法を著しく上回ることがわかった。
ジェネレータと批評家のアプローチは、世界最大のeコマースウェブサイトの1つで、スレート効率(4%gmvと5%の注文数)とライブ実験の多様性の両方を改善している。
関連論文リスト
- F-Eval: Asssessing Fundamental Abilities with Refined Evaluation Methods [111.46455901113976]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。
我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。
このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文 参考訳(メタデータ) (2023-10-10T09:20:14Z) - Investigating the Robustness of Sequential Recommender Systems Against
Training Data Perturbations [9.463133630647569]
有限ランク付けに適した拡張された類似度であるFinite Rank-Biased Overlap (FRBO)を紹介する。
時間的に順序付けられたシーケンス内の異なる位置におけるアイテムの削除の影響を実験的に検討する。
その結果、シーケンスの最後にアイテムを削除することは、統計的にパフォーマンスに有意な影響を及ぼすことが示された。
論文 参考訳(メタデータ) (2023-07-24T23:26:46Z) - SimOAP: Improve Coherence and Consistency in Persona-based Dialogue
Generation via Over-sampling and Post-evaluation [54.66399120084227]
大規模コーパスで訓練された言語モデルは、オープンドメイン対話において驚くほど流動的な結果を生み出すことができる。
ペルソナに基づく対話生成タスクでは、一貫性と一貫性が言語モデルにとって大きな課題である。
オーバーサンプリングとポスト評価という2段階のSimOAP戦略が提案されている。
論文 参考訳(メタデータ) (2023-05-18T17:23:00Z) - Pre-training Language Model as a Multi-perspective Course Learner [103.17674402415582]
本研究では,サンプル効率のよい事前学習のためのマルチパースペクティブ・コース・ラーニング(MCL)手法を提案する。
本研究では,3つの自己超越コースが,「綱引き」力学の固有の欠陥を軽減するように設計されている。
本手法は,GLUEおよびSQuAD 2.0ベンチマークにおいて,ELECTRAの平均性能をそれぞれ2.8%,絶対点を3.2%向上させる。
論文 参考訳(メタデータ) (2023-05-06T09:02:10Z) - PIER: Permutation-Level Interest-Based End-to-End Re-ranking Framework
in E-commerce [13.885695433738437]
既存の再ランク付け手法は、初期ランキングリストを直接入力として取り、よく設計されたコンテキストワイズモデルによって最適な置換を生成する。
候補の順列を評価することは 現実的には 許容できない計算コストをもたらします
本稿では,これらの課題に対処するため,PIERという新しいエンドツーエンドのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-06T09:17:52Z) - Multi-Objective Personalized Product Retrieval in Taobao Search [27.994166796745496]
関連性, 露出性, クリック性, 購入性の4つの階層的最適化目標を持つ, 新規な多目的パーソナライズされた製品検索モデルを提案する。
MOPPRは28日間のオンラインA/Bテストで0.96%のトランザクションと1.29%のGMV改善を達成した。
2021年のDouble-11ショッピングフェスティバル以来、MOPPRは従来のMGDSPRに代わるモバイルタオバオ検索に完全に配備されている。
論文 参考訳(メタデータ) (2022-10-09T05:18:42Z) - WSLRec: Weakly Supervised Learning for Neural Sequential Recommendation
Models [24.455665093145818]
我々は、WSLRecと呼ばれる新しいモデルに依存しないトレーニング手法を提案し、3段階のフレームワーク(事前学習、トップ$k$マイニング、本質的、微調整)を採用する。
WSLRec は、BR や ItemCF のようなモデルフリーメソッドから、余分な弱い監督のモデルを事前訓練することで、不完全性の問題を解決すると同時に、最上位の$k のマイニングを活用して、微調整のための弱い監督の信頼性の高いユーザ・イテム関連を検査することで、不正確な問題を解消する。
論文 参考訳(メタデータ) (2022-02-28T08:55:12Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z) - Learning Robust Models for e-Commerce Product Search [23.537201383165755]
検索クエリ意図にマッチしないアイテムを表示することは、eコマースにおける顧客エクスペリエンスを低下させる。
問題を緩和するには、大きなラベル付きデータセットが必要である。
我々は、ミスマッチを効果的に分類することを学ぶ、深いエンドツーエンドモデルを開発する。
論文 参考訳(メタデータ) (2020-05-07T17:22:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。