論文の概要: Imitate TheWorld: A Search Engine Simulation Platform
- arxiv url: http://arxiv.org/abs/2107.07693v1
- Date: Fri, 16 Jul 2021 03:55:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-19 14:41:41.060165
- Title: Imitate TheWorld: A Search Engine Simulation Platform
- Title(参考訳): Imitate TheWorld: 検索エンジンシミュレーションプラットフォーム
- Authors: Yongqing Gao, Guangda Huzhang, Weijie Shen, Yawen Liu, Wen-Ji Zhou,
Qing Da, Dan Shen, Yang Yu
- Abstract要約: 生成されたページに対して、よく訓練された識別器によるフィードバックを適切に提供できるシミュレーション検索エンジンAESimを構築した。
実世界とのつながりを失う従来のシミュレーションプラットフォームとは異なり、われわれのデータは検索の実際のデータに依存している。
我々の実験は、AESimが古典的なランキングの指標よりも、ランキングモデルのオンラインパフォーマンスをよりよく反映できることを示した。
- 参考スコア(独自算出の注目度): 13.011052642314421
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent E-commerce applications benefit from the growth of deep learning
techniques. However, we notice that many works attempt to maximize business
objectives by closely matching offline labels which follow the supervised
learning paradigm. This results in models obtain high offline performance in
terms of Area Under Curve (AUC) and Normalized Discounted Cumulative Gain
(NDCG), but cannot consistently increase the revenue metrics such as purchases
amount of users. Towards the issues, we build a simulated search engine AESim
that can properly give feedback by a well-trained discriminator for generated
pages, as a dynamic dataset. Different from previous simulation platforms which
lose connection with the real world, ours depends on the real data in
AliExpress Search: we use adversarial learning to generate virtual users and
use Generative Adversarial Imitation Learning (GAIL) to capture behavior
patterns of users. Our experiments also show AESim can better reflect the
online performance of ranking models than classic ranking metrics, implying
AESim can play a surrogate of AliExpress Search and evaluate models without
going online.
- Abstract(参考訳): 近年のEコマースアプリケーションは、ディープラーニング技術の成長の恩恵を受けている。
しかし,教師あり学習パラダイムに従うオフラインラベルを密にマッチングすることで,ビジネス目標の最大化を図っている作業は多い。
これにより、auc(area under curve)とndcg(normalized discounted cumulative gain)という観点で高いオフラインパフォーマンスが得られるが、ユーザの購買量などの収益指標を一貫して増やすことはできない。
この問題に対して,我々は,動的データセットとして,よく訓練された識別器からフィードバックを得られるシミュレーション検索エンジンAESimを構築した。
AliExpress Searchの実際のデータに依存する従来のシミュレーションプラットフォームとは違って、仮想ユーザ生成には逆学習を使用し、ユーザの行動パターンをキャプチャするためにGAIL(Generative Adversarial Imitation Learning)を使用します。
また、aesimは従来のランキング指標よりも、ランキングモデルのオンラインパフォーマンスをよりよく反映できることを示し、aesimがaliexpress検索の代理を演じ、オンラインに行かずにモデルを評価できることを示唆した。
関連論文リスト
- Online Bandit Learning with Offline Preference Data [15.799929216215672]
ノイズの多い選好フィードバックを持つオフラインデータセットでウォームスタートできるオンライン学習のための後部サンプリングアルゴリズムを提案する。
生成したエキスパートの“コンピテンス”をモデル化することで、そのようなデータセットを最も効果的に利用できることを示します。
論文 参考訳(メタデータ) (2024-06-13T20:25:52Z) - BASES: Large-scale Web Search User Simulation with Large Language Model
based Agents [108.97507653131917]
BASESは、大きな言語モデル(LLM)を持つ新しいユーザーシミュレーションフレームワークである。
シミュレーションフレームワークは,大規模に独自のユーザプロファイルを生成することができ,その結果,多様な検索行動が生まれる。
WARRIORSは、中国語と英語の両方のバージョンを含む、Web検索ユーザ行動を含む、新しい大規模なデータセットである。
論文 参考訳(メタデータ) (2024-02-27T13:44:09Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - On Generative Agents in Recommendation [58.42840923200071]
Agent4Recは、Large Language Modelsに基づいたレコメンデーションのユーザーシミュレータである。
各エージェントは、ページ単位でパーソナライズされた推奨モデルと対話する。
論文 参考訳(メタデータ) (2023-10-16T06:41:16Z) - Automatic Music Playlist Generation via Simulation-based Reinforcement
Learning [17.628525710776877]
プレイリストのパーソナライズは、音楽ストリーミングサービスで一般的な機能である。
シミュレーションされたプレイリスト生成環境を用いて,ユーザの満足度を計測する強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-13T14:13:02Z) - Causal Decision Transformer for Recommender Systems via Offline
Reinforcement Learning [23.638418776700522]
我々は、リコメンデータシステムのための因果決定変換器(CDT4Rec)という新しいモデルを提案する。
CDT4Recはオフラインの強化学習システムで、オンラインインタラクションではなくデータセットから学習することができる。
本モデルの有効性と優位性を示すため、6つの実世界のオフラインデータセットと1つのオンラインシミュレータの実験を行った。
論文 参考訳(メタデータ) (2023-04-17T00:05:52Z) - Towards Data-Driven Offline Simulations for Online Reinforcement
Learning [30.654163861164864]
強化学習のためのオフライン学習者シミュレーション(OLS)を形式化する。
シミュレーションの忠実度と効率を両立させる新しい評価プロトコルを提案する。
論文 参考訳(メタデータ) (2022-11-14T18:36:13Z) - Offline Reinforcement Learning Hands-On [60.36729294485601]
オフラインのRLは、大規模なデータセットを、環境とのオンラインインタラクションなしで強力な意思決定エンジンにすることを目的としている。
この研究は、実践者の視点からこれらの取り組みを反映することを目的としている。
オフラインRLの成功には,データの多様性と高リターン例が不可欠であることを実験的に検証する。
論文 参考訳(メタデータ) (2020-11-29T14:45:02Z) - Do Offline Metrics Predict Online Performance in Recommender Systems? [79.48653445643865]
6つのシミュレーション環境におけるレコメンデータの評価により,オフラインメトリクスがオンラインのパフォーマンスを予測する程度について検討した。
オフラインメトリクスは、様々な環境におけるオンラインのパフォーマンスと相関している。
本研究は,探索戦略の追加による影響について検討し,その有効性はレコメンデーションアルゴリズムに大きく依存していることを示す。
論文 参考訳(メタデータ) (2020-11-07T01:41:13Z) - AliExpress Learning-To-Rank: Maximizing Online Model Performance without
Going Online [60.887637616379926]
本稿では,学習からランクへ学習するための評価器・ジェネレータフレームワークを提案する。
コンテキストを含むレコメンデーションを一般化して評価する評価器と、強化学習による評価器スコアを最大化するジェネレータとから構成される。
本手法は, オンラインA/Bテストにおける産業レベルの微調整モデルよりも, 変換率(CR)の面で大幅に向上する。
論文 参考訳(メタデータ) (2020-03-25T10:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。