論文の概要: AliExpress Learning-To-Rank: Maximizing Online Model Performance without
Going Online
- arxiv url: http://arxiv.org/abs/2003.11941v5
- Date: Thu, 31 Dec 2020 10:04:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 02:30:34.274969
- Title: AliExpress Learning-To-Rank: Maximizing Online Model Performance without
Going Online
- Title(参考訳): aliexpress learning-to-rank: オンラインモデルのパフォーマンスを最大化する
- Authors: Guangda Huzhang, Zhen-Jia Pang, Yongqing Gao, Yawen Liu, Weijie Shen,
Wen-Ji Zhou, Qing Da, An-Xiang Zeng, Han Yu, and Yang Yu, and Zhi-Hua Zhou
- Abstract要約: 本稿では,学習からランクへ学習するための評価器・ジェネレータフレームワークを提案する。
コンテキストを含むレコメンデーションを一般化して評価する評価器と、強化学習による評価器スコアを最大化するジェネレータとから構成される。
本手法は, オンラインA/Bテストにおける産業レベルの微調整モデルよりも, 変換率(CR)の面で大幅に向上する。
- 参考スコア(独自算出の注目度): 60.887637616379926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning-to-rank (LTR) has become a key technology in E-commerce
applications. Most existing LTR approaches follow a supervised learning
paradigm from offline labeled data collected from the online system. However,
it has been noticed that previous LTR models can have a good validation
performance over offline validation data but have a poor online performance,
and vice versa, which implies a possible large inconsistency between the
offline and online evaluation. We investigate and confirm in this paper that
such inconsistency exists and can have a significant impact on AliExpress
Search. Reasons for the inconsistency include the ignorance of item context
during the learning, and the offline data set is insufficient for learning the
context. Therefore, this paper proposes an evaluator-generator framework for
LTR with item context. The framework consists of an evaluator that generalizes
to evaluate recommendations involving the context, and a generator that
maximizes the evaluator score by reinforcement learning, and a discriminator
that ensures the generalization of the evaluator. Extensive experiments in
simulation environments and AliExpress Search online system show that, firstly,
the classic data-based metrics on the offline dataset can show significant
inconsistency with online performance, and can even be misleading. Secondly,
the proposed evaluator score is significantly more consistent with the online
performance than common ranking metrics. Finally, as the consequence, our
method achieves a significant improvement (\textgreater$2\%$) in terms of
Conversion Rate (CR) over the industrial-level fine-tuned model in online A/B
tests.
- Abstract(参考訳): LTR(Learning-to-rank)はEコマースアプリケーションにおいて重要な技術となっている。
既存のLTRアプローチのほとんどは、オンラインシステムから収集されたオフラインラベル付きデータから教師付き学習パラダイムに従う。
しかし、従来のLTRモデルは、オフラインの検証データよりも優れた検証性能を持つことができるが、オンラインのパフォーマンスは低い。
本稿では,この不整合がAliExpress Searchに重大な影響を与えうることを調査・確認する。
不整合の理由は、学習中にアイテムコンテキストを無視することであり、オフラインデータセットは文脈を学ぶのに不十分である。
そこで本稿では,LTRのアイテムコンテキストを考慮した評価器・ジェネレータフレームワークを提案する。
本フレームワークは、コンテキストを含むレコメンデーションを一般化して評価する評価器と、強化学習による評価器スコアを最大化する生成器と、評価器の一般化を保証する識別器とから構成される。
シミュレーション環境における広範囲な実験とaliexpress検索オンラインシステムでは、オフラインデータセット上の古典的なデータベースのメトリクスは、オンラインパフォーマンスに重大な一貫性を示し、誤解を招くことさえある。
第2に,提案する評価スコアは,一般的なランキング指標よりもオンラインパフォーマンスと有意に一致している。
その結果, オンラインa/bテストにおいて, 産業レベルの微調整モデルよりも変換率 (cr) の点で, 大幅な改善 (\textgreater$2\%$) が得られた。
関連論文リスト
- The Effects of Data Split Strategies on the Offline Experiments for CTR Prediction [0.0]
本研究の目的は,現在のオフライン評価手法と実世界のユースケースの矛盾に対処することである。
大規模なオープンベンチマークデータセットであるCriteo上で、ランダムスプリットとテンポラルスプリットの両方を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-06-26T13:01:52Z) - Online Bandit Learning with Offline Preference Data [15.799929216215672]
ノイズの多い選好フィードバックを持つオフラインデータセットでウォームスタートできるオンライン学習のための後部サンプリングアルゴリズムを提案する。
生成したエキスパートの“コンピテンス”をモデル化することで、そのようなデータセットを最も効果的に利用できることを示します。
論文 参考訳(メタデータ) (2024-06-13T20:25:52Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Adaptive Policy Learning for Offline-to-Online Reinforcement Learning [27.80266207283246]
我々は、エージェントがオフラインデータセットから最初に学習され、オンラインにトレーニングされたオフライン-オンライン設定について検討する。
オフラインおよびオンラインデータを効果的に活用するためのAdaptive Policy Learningというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-14T08:13:21Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - Imitate TheWorld: A Search Engine Simulation Platform [13.011052642314421]
生成されたページに対して、よく訓練された識別器によるフィードバックを適切に提供できるシミュレーション検索エンジンAESimを構築した。
実世界とのつながりを失う従来のシミュレーションプラットフォームとは異なり、われわれのデータは検索の実際のデータに依存している。
我々の実験は、AESimが古典的なランキングの指標よりも、ランキングモデルのオンラインパフォーマンスをよりよく反映できることを示した。
論文 参考訳(メタデータ) (2021-07-16T03:55:33Z) - ORDisCo: Effective and Efficient Usage of Incremental Unlabeled Data for
Semi-supervised Continual Learning [52.831894583501395]
連続学習は、入力されたデータが完全にラベル付けされていると仮定し、実際のアプリケーションでは適用できないかもしれない。
我々は、条件付き生成逆数ネットワーク(GAN)を用いた分類器を相互に学習するために、識別器整合(ORDisCo)を用いたディープオンライン再生を提案する。
ORDisCo が SSCL の様々な半教師付き学習ベンチマークデータセットで大幅なパフォーマンス向上を達成していることを示します。
論文 参考訳(メタデータ) (2021-01-02T09:04:14Z) - Do Offline Metrics Predict Online Performance in Recommender Systems? [79.48653445643865]
6つのシミュレーション環境におけるレコメンデータの評価により,オフラインメトリクスがオンラインのパフォーマンスを予測する程度について検討した。
オフラインメトリクスは、様々な環境におけるオンラインのパフォーマンスと相関している。
本研究は,探索戦略の追加による影響について検討し,その有効性はレコメンデーションアルゴリズムに大きく依存していることを示す。
論文 参考訳(メタデータ) (2020-11-07T01:41:13Z) - Modeling Online Behavior in Recommender Systems: The Importance of
Temporal Context [30.894950420437926]
推薦システムの性能を評価するときの時間的文脈の省略が、いかに誤った自信をもたらすかを示す。
既存のモデルに時間的文脈をさらに埋め込むためのトレーニング手順を提案する。
その結果、時間的目標を含めれば、リコール@20を最大20%改善できることがわかった。
論文 参考訳(メタデータ) (2020-09-19T19:36:43Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。