論文の概要: Generator and Critic: A Deep Reinforcement Learning Approach for Slate
Re-ranking in E-commerce
- arxiv url: http://arxiv.org/abs/2005.12206v1
- Date: Mon, 25 May 2020 16:24:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 05:49:06.972071
- Title: Generator and Critic: A Deep Reinforcement Learning Approach for Slate
Re-ranking in E-commerce
- Title(参考訳): ジェネレータと批判:Eコマースにおけるスレートの深層強化学習アプローチ
- Authors: Jianxiong Wei, Anxiang Zeng, Yueqiu Wu, Peng Guo, Qingsong Hua,
Qingpeng Cai
- Abstract要約: 本稿では,新しいジェネレータと批評スレートの再評価手法を提案する。
PPO探索と呼ばれる探索強化学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 17.712394984304336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The slate re-ranking problem considers the mutual influences between items to
improve user satisfaction in e-commerce, compared with the point-wise ranking.
Previous works either directly rank items by an end to end model, or rank items
by a score function that trades-off the point-wise score and the diversity
between items. However, there are two main existing challenges that are not
well studied: (1) the evaluation of the slate is hard due to the complex mutual
influences between items of one slate; (2) even given the optimal evaluation,
searching the optimal slate is challenging as the action space is exponentially
large. In this paper, we present a novel Generator and Critic slate re-ranking
approach, where the Critic evaluates the slate and the Generator ranks the
items by the reinforcement learning approach. We propose a Full Slate Critic
(FSC) model that considers the real impressed items and avoids the impressed
bias of existing models. For the Generator, to tackle the problem of large
action space, we propose a new exploration reinforcement learning algorithm,
called PPO-Exploration. Experimental results show that the FSC model
significantly outperforms the state of the art slate evaluation methods, and
the PPO-Exploration algorithm outperforms the existing reinforcement learning
methods substantially. The Generator and Critic approach improves both the
slate efficiency(4% gmv and 5% number of orders) and diversity in live
experiments on one of the largest e-commerce websites in the world.
- Abstract(参考訳): また,電子商取引におけるユーザ満足度向上のための項目間の相互影響を,ポイントワイドランキングと比較した。
以前の作業では、アイテムをエンドツーエンドモデルで直接ランク付けするか、ポイントワイズスコアとアイテム間の多様性をトレードオフするスコア関数でランク付けする。
しかし,(1)スレートの複雑な相互影響によりスレートの評価が困難であること,(2)最適評価であっても,動作空間が指数関数的に大きいため最適スレートの探索が難しいこと,の2つの課題が十分に検討されていない。
本稿では,新しい生成元と批判的スレートの再ランク付け手法を提案する。この手法では,批判者がスレートを評価し,生成元が強化学習アプローチによって項目をランク付けする。
そこで本研究では,実際の印象的項目を考慮し,既存モデルの印象的バイアスを回避するFSCモデルを提案する。
本研究では,大規模動作空間の問題に取り組むために,ppo-explorationと呼ばれる新しい探索強化学習アルゴリズムを提案する。
実験結果から, FSCモデルは技量評価手法の状態を著しく上回り, PPO-Explorationアルゴリズムは既存の強化学習手法を著しく上回ることがわかった。
ジェネレータと批評家のアプローチは、世界最大のeコマースウェブサイトの1つで、スレート効率(4%gmvと5%の注文数)とライブ実験の多様性の両方を改善している。
関連論文リスト
- CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - Language Model Preference Evaluation with Multiple Weak Evaluators [78.53743237977677]
GED(Preference Graph Ensemble and Denoise)は、複数のモデルベースの評価器を活用して嗜好グラフを構築する新しいアプローチである。
GEDは,モデルランキング,応答選択,モデルアライメントタスクにおいて,ベースライン手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-14T01:57:25Z) - Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。
BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - Investigating the Robustness of Sequential Recommender Systems Against
Training Data Perturbations [9.463133630647569]
有限ランク付けに適した拡張された類似度であるFinite Rank-Biased Overlap (FRBO)を紹介する。
時間的に順序付けられたシーケンス内の異なる位置におけるアイテムの削除の影響を実験的に検討する。
その結果、シーケンスの最後にアイテムを削除することは、統計的にパフォーマンスに有意な影響を及ぼすことが示された。
論文 参考訳(メタデータ) (2023-07-24T23:26:46Z) - PIER: Permutation-Level Interest-Based End-to-End Re-ranking Framework
in E-commerce [13.885695433738437]
既存の再ランク付け手法は、初期ランキングリストを直接入力として取り、よく設計されたコンテキストワイズモデルによって最適な置換を生成する。
候補の順列を評価することは 現実的には 許容できない計算コストをもたらします
本稿では,これらの課題に対処するため,PIERという新しいエンドツーエンドのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-06T09:17:52Z) - Multi-Objective Personalized Product Retrieval in Taobao Search [27.994166796745496]
関連性, 露出性, クリック性, 購入性の4つの階層的最適化目標を持つ, 新規な多目的パーソナライズされた製品検索モデルを提案する。
MOPPRは28日間のオンラインA/Bテストで0.96%のトランザクションと1.29%のGMV改善を達成した。
2021年のDouble-11ショッピングフェスティバル以来、MOPPRは従来のMGDSPRに代わるモバイルタオバオ検索に完全に配備されている。
論文 参考訳(メタデータ) (2022-10-09T05:18:42Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z) - Learning Robust Models for e-Commerce Product Search [23.537201383165755]
検索クエリ意図にマッチしないアイテムを表示することは、eコマースにおける顧客エクスペリエンスを低下させる。
問題を緩和するには、大きなラベル付きデータセットが必要である。
我々は、ミスマッチを効果的に分類することを学ぶ、深いエンドツーエンドモデルを開発する。
論文 参考訳(メタデータ) (2020-05-07T17:22:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。