Fugu-MT 論文翻訳(概要): Generator and Critic: A Deep Reinforcement Learning Approach for Slate Re-ranking in E-commerce

論文の概要: Generator and Critic: A Deep Reinforcement Learning Approach for Slate Re-ranking in E-commerce

arxiv url: http://arxiv.org/abs/2005.12206v1
Date: Mon, 25 May 2020 16:24:01 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-29 05:49:06.972071
Title: Generator and Critic: A Deep Reinforcement Learning Approach for Slate Re-ranking in E-commerce
Title（参考訳）: ジェネレータと批判:Eコマースにおけるスレートの深層強化学習アプローチ
Authors: Jianxiong Wei, Anxiang Zeng, Yueqiu Wu, Peng Guo, Qingsong Hua, Qingpeng Cai
Abstract要約: 本稿では,新しいジェネレータと批評スレートの再評価手法を提案する。 PPO探索と呼ばれる探索強化学習アルゴリズムを提案する。
参考スコア（独自算出の注目度）: 17.712394984304336
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The slate re-ranking problem considers the mutual influences between items to improve user satisfaction in e-commerce, compared with the point-wise ranking. Previous works either directly rank items by an end to end model, or rank items by a score function that trades-off the point-wise score and the diversity between items. However, there are two main existing challenges that are not well studied: (1) the evaluation of the slate is hard due to the complex mutual influences between items of one slate; (2) even given the optimal evaluation, searching the optimal slate is challenging as the action space is exponentially large. In this paper, we present a novel Generator and Critic slate re-ranking approach, where the Critic evaluates the slate and the Generator ranks the items by the reinforcement learning approach. We propose a Full Slate Critic (FSC) model that considers the real impressed items and avoids the impressed bias of existing models. For the Generator, to tackle the problem of large action space, we propose a new exploration reinforcement learning algorithm, called PPO-Exploration. Experimental results show that the FSC model significantly outperforms the state of the art slate evaluation methods, and the PPO-Exploration algorithm outperforms the existing reinforcement learning methods substantially. The Generator and Critic approach improves both the slate efficiency(4% gmv and 5% number of orders) and diversity in live experiments on one of the largest e-commerce websites in the world.
Abstract（参考訳）: また,電子商取引におけるユーザ満足度向上のための項目間の相互影響を,ポイントワイドランキングと比較した。以前の作業では、アイテムをエンドツーエンドモデルで直接ランク付けするか、ポイントワイズスコアとアイテム間の多様性をトレードオフするスコア関数でランク付けする。しかし,(1)スレートの複雑な相互影響によりスレートの評価が困難であること,(2)最適評価であっても,動作空間が指数関数的に大きいため最適スレートの探索が難しいこと,の2つの課題が十分に検討されていない。本稿では,新しい生成元と批判的スレートの再ランク付け手法を提案する。この手法では,批判者がスレートを評価し,生成元が強化学習アプローチによって項目をランク付けする。そこで本研究では,実際の印象的項目を考慮し,既存モデルの印象的バイアスを回避するFSCモデルを提案する。本研究では,大規模動作空間の問題に取り組むために,ppo-explorationと呼ばれる新しい探索強化学習アルゴリズムを提案する。実験結果から, FSCモデルは技量評価手法の状態を著しく上回り, PPO-Explorationアルゴリズムは既存の強化学習手法を著しく上回ることがわかった。ジェネレータと批評家のアプローチは、世界最大のeコマースウェブサイトの1つで、スレート効率(4%gmvと5%の注文数)とライブ実験の多様性の両方を改善している。

関連論文リスト

Variational Bayesian Personalized Ranking [39.24591060825056]
変分的BPRは、確率最適化、ノイズ低減、人気低下を統合する、新しく実装が容易な学習目標である。本稿では,問題サンプルからの雑音を効果的に低減するために,注目に基づく競合学習手法を提案する。実験により、人気のあるバックボーンレコメンデーションモデルにおける変分BPRの有効性を実証する。
論文参考訳（メタデータ） (2025-03-14T04:22:01Z)
CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。 CompassJudger-1は、優れた汎用性を示す汎用LLMである。 textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文参考訳（メタデータ） (2024-10-21T17:56:51Z)
Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文参考訳（メタデータ） (2024-10-18T17:32:22Z)
Language Model Preference Evaluation with Multiple Weak Evaluators [78.53743237977677]
GED(Preference Graph Ensemble and Denoise)は、複数のモデルベースの評価器を活用して嗜好グラフを構築する新しいアプローチである。 GEDは,モデルランキング,応答選択,モデルアライメントタスクにおいて,ベースライン手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-10-14T01:57:25Z)
Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。 BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文参考訳（メタデータ） (2024-08-30T15:39:34Z)
Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文参考訳（メタデータ） (2024-06-13T14:41:00Z)
F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文参考訳（メタデータ） (2024-01-26T13:55:32Z)
Investigating the Robustness of Sequential Recommender Systems Against Training Data Perturbations [9.463133630647569]
有限ランク付けに適した拡張された類似度であるFinite Rank-Biased Overlap (FRBO)を紹介する。時間的に順序付けられたシーケンス内の異なる位置におけるアイテムの削除の影響を実験的に検討する。その結果、シーケンスの最後にアイテムを削除することは、統計的にパフォーマンスに有意な影響を及ぼすことが示された。
論文参考訳（メタデータ） (2023-07-24T23:26:46Z)
PIER: Permutation-Level Interest-Based End-to-End Re-ranking Framework in E-commerce [13.885695433738437]
既存の再ランク付け手法は、初期ランキングリストを直接入力として取り、よく設計されたコンテキストワイズモデルによって最適な置換を生成する。候補の順列を評価することは現実的には許容できない計算コストをもたらします本稿では,これらの課題に対処するため,PIERという新しいエンドツーエンドのフレームワークを提案する。
論文参考訳（メタデータ） (2023-02-06T09:17:52Z)
Multi-Objective Personalized Product Retrieval in Taobao Search [27.994166796745496]
関連性, 露出性, クリック性, 購入性の4つの階層的最適化目標を持つ, 新規な多目的パーソナライズされた製品検索モデルを提案する。 MOPPRは28日間のオンラインA/Bテストで0.96%のトランザクションと1.29%のGMV改善を達成した。 2021年のDouble-11ショッピングフェスティバル以来、MOPPRは従来のMGDSPRに代わるモバイルタオバオ検索に完全に配備されている。
論文参考訳（メタデータ） (2022-10-09T05:18:42Z)
WSLRec: Weakly Supervised Learning for Neural Sequential Recommendation Models [24.455665093145818]
我々は、WSLRecと呼ばれる新しいモデルに依存しないトレーニング手法を提案し、3段階のフレームワーク(事前学習、トップ$k$マイニング、本質的、微調整)を採用する。 WSLRec は、BR や ItemCF のようなモデルフリーメソッドから、余分な弱い監督のモデルを事前訓練することで、不完全性の問題を解決すると同時に、最上位の$k のマイニングを活用して、微調整のための弱い監督の信頼性の高いユーザ・イテム関連を検査することで、不正確な問題を解消する。
論文参考訳（メタデータ） (2022-02-28T08:55:12Z)
Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文参考訳（メタデータ） (2021-01-20T11:48:12Z)
Learning Robust Models for e-Commerce Product Search [23.537201383165755]
検索クエリ意図にマッチしないアイテムを表示することは、eコマースにおける顧客エクスペリエンスを低下させる。問題を緩和するには、大きなラベル付きデータセットが必要である。我々は、ミスマッチを効果的に分類することを学ぶ、深いエンドツーエンドモデルを開発する。
論文参考訳（メタデータ） (2020-05-07T17:22:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。