論文の概要: Online Learning for Recommendations at Grubhub
- arxiv url: http://arxiv.org/abs/2107.07106v1
- Date: Thu, 15 Jul 2021 04:01:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-17 02:05:06.876442
- Title: Online Learning for Recommendations at Grubhub
- Title(参考訳): grubhubでのレコメンデーションのためのオンライン学習
- Authors: Alex Egg
- Abstract要約: 本稿では,既存のオフライン Recommender システムを簡単に変更し,Transfer Learning を用いてオンラインで動作させる手法を提案する。
Recommender Systemsのオンライン学習には、品質とスケールの2つの大きな利点がある。
例えば、Grubhubでは、ステートレスなバッチ学習をオフラインからステートフルなインクリメンタルな学習に移行することで、最大45倍のコスト削減と、+20%のメトリクス増加を実現している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a method to easily modify existing offline Recommender Systems to
run online using Transfer Learning. Online Learning for Recommender Systems has
two main advantages: quality and scale. Like many Machine Learning algorithms
in production if not regularly retrained will suffer from Concept Drift. A
policy that is updated frequently online can adapt to drift faster than a batch
system. This is especially true for user-interaction systems like recommenders
where the underlying distribution can shift drastically to follow user
behaviour. As a platform grows rapidly like Grubhub, the cost of running batch
training jobs becomes material. A shift from stateless batch learning offline
to stateful incremental learning online can recover, for example, at Grubhub,
up to a 45x cost savings and a +20% metrics increase. There are a few
challenges to overcome with the transition to online stateful learning, namely
convergence, non-stationary embeddings and off-policy evaluation, which we
explore from our experiences running this system in production.
- Abstract(参考訳): 本稿では,既存のオフライン Recommender システムを簡単に変更し,Transfer Learning を用いてオンラインで動作させる手法を提案する。
Online Learning for Recommender Systemsには、品質とスケールの2つの大きな利点があります。
多くの機械学習アルゴリズムのように、定期的に再訓練されないとコンセプトドリフトに悩まされる。
オンラインで頻繁に更新されるポリシーは、バッチシステムよりも速くドリフトに適応できる。
これは、ユーザー行動に従うために、基礎となるディストリビューションが劇的にシフトできるレコメンデータのようなユーザーインタラクションシステムに特に当てはまる。
Grubhubのようにプラットフォームが急速に成長するにつれて、バッチトレーニングジョブの実行コストが重要になる。
オフラインでのステートレスバッチ学習から、オンラインのステートフルインクリメンタル学習へのシフトは、例えばgrubhubでは、最大45倍のコスト削減と+20%のメトリクス向上を実現している。
オンラインステートフル学習への移行には,コンバージェンスや非定常埋め込み,オフポリシ評価など,克服すべき課題がいくつかあります。
関連論文リスト
- Online Matching: A Real-time Bandit System for Large-scale
Recommendations [23.954049092470548]
Online Matchingは、ユーザのアイテムに対する直接的なフィードバックをリアルタイムで学習する、スケーラブルなクローズドループバンディットシステムである。
Diag-LinUCBはLinUCBアルゴリズムの新たな拡張であり、スケーラブルでタイムリーな方法で帯域幅パラメータの分散更新を可能にする。
論文 参考訳(メタデータ) (2023-07-29T05:46:27Z) - Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Adaptive Behavior Cloning Regularization for Stable Offline-to-Online
Reinforcement Learning [80.25648265273155]
オフライン強化学習は、固定データセットから学習することで、環境と対話することなくエージェントの動作を学ぶことができる。
オンラインの微調整中、オフラインからオンラインデータへの突然の分散シフトにより、事前訓練されたエージェントのパフォーマンスが急速に低下する可能性がある。
エージェントの性能と訓練安定性に基づいて,オンラインファインチューニングにおける行動クローンの損失を適応的に評価することを提案する。
実験の結果,提案手法はD4RLベンチマークにおいて,最先端のオフライン-オンライン強化学習性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-25T09:08:26Z) - Offline Reinforcement Learning for Mobile Notifications [1.965345368500676]
モバイル通知システムは、オンラインプラットフォームにおけるユーザエンゲージメントの推進と維持において重要な役割を担っている。
通知システムにおけるほとんどの機械学習アプリケーションは、応答予測モデルを中心に構築されている。
我々は、強化学習は、パフォーマンスとイテレーションのスピードの観点から、通知システムにとってより良いフレームワークであると主張する。
論文 参考訳(メタデータ) (2022-02-04T22:22:22Z) - Recursive Least-Squares Estimator-Aided Online Learning for Visual
Tracking [58.14267480293575]
オフライン学習を必要とせず、簡単な効果的なオンライン学習手法を提案する。
これは、モデルが以前見たオブジェクトに関する知識を記憶するための、内蔵されたメモリ保持メカニズムを可能にする。
我々は、RT-MDNetにおける多層パーセプトロンと、DiMPにおける畳み込みニューラルネットワークの追跡のためのオンライン学習ファミリーにおける2つのネットワークに基づくアプローチを評価する。
論文 参考訳(メタデータ) (2021-12-28T06:51:18Z) - Incremental Learning for Personalized Recommender Systems [8.020546404087922]
トレーニング効率とモデル品質の両方を提供するために,インクリメンタルな学習ソリューションを提案する。
このソリューションはLinkedInにデプロイされ、産業規模のレコメンデーションシステムに直接適用される。
論文 参考訳(メタデータ) (2021-08-13T04:21:21Z) - Offline-to-Online Reinforcement Learning via Balanced Replay and
Pessimistic Q-Ensemble [135.6115462399788]
深いオフライン強化学習により、オフラインデータセットから強力なロボットエージェントをトレーニングすることが可能になった。
状態-作用分布シフトは、微調整中に厳しいブートストラップエラーを引き起こす可能性がある。
本稿では,オンライン上で遭遇したサンプルを優先しながら,ほぼ政治的なサンプルの使用を奨励するバランスの取れたリプレイ方式を提案する。
論文 参考訳(メタデータ) (2021-07-01T16:26:54Z) - Interactive Search Based on Deep Reinforcement Learning [4.353144350714567]
このプロジェクトは主にオフライントレーニングのための仮想ユーザ環境を確立する。
同時に,2クラスタリングに基づく強化学習アルゴリズムを改良して,推奨エージェントの行動空間と推奨経路空間を拡張することを試みた。
論文 参考訳(メタデータ) (2020-12-09T15:23:53Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。