論文の概要: Online Matching: A Real-time Bandit System for Large-scale
Recommendations
- arxiv url: http://arxiv.org/abs/2307.15893v1
- Date: Sat, 29 Jul 2023 05:46:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 18:56:18.269264
- Title: Online Matching: A Real-time Bandit System for Large-scale
Recommendations
- Title(参考訳): オンラインマッチング:大規模レコメンデーションのためのリアルタイムバンディットシステム
- Authors: Xinyang Yi, Shao-Chuan Wang, Ruining He, Hariharan Chandrasekaran,
Charles Wu, Lukasz Heldt, Lichan Hong, Minmin Chen, Ed H. Chi
- Abstract要約: Online Matchingは、ユーザのアイテムに対する直接的なフィードバックをリアルタイムで学習する、スケーラブルなクローズドループバンディットシステムである。
Diag-LinUCBはLinUCBアルゴリズムの新たな拡張であり、スケーラブルでタイムリーな方法で帯域幅パラメータの分散更新を可能にする。
- 参考スコア(独自算出の注目度): 23.954049092470548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The last decade has witnessed many successes of deep learning-based models
for industry-scale recommender systems. These models are typically trained
offline in a batch manner. While being effective in capturing users' past
interactions with recommendation platforms, batch learning suffers from long
model-update latency and is vulnerable to system biases, making it hard to
adapt to distribution shift and explore new items or user interests. Although
online learning-based approaches (e.g., multi-armed bandits) have demonstrated
promising theoretical results in tackling these challenges, their practical
real-time implementation in large-scale recommender systems remains limited.
First, the scalability of online approaches in servicing a massive online
traffic while ensuring timely updates of bandit parameters poses a significant
challenge. Additionally, exploring uncertainty in recommender systems can
easily result in unfavorable user experience, highlighting the need for
devising intricate strategies that effectively balance the trade-off between
exploitation and exploration. In this paper, we introduce Online Matching: a
scalable closed-loop bandit system learning from users' direct feedback on
items in real time. We present a hybrid "offline + online" approach for
constructing this system, accompanied by a comprehensive exposition of the
end-to-end system architecture. We propose Diag-LinUCB -- a novel extension of
the LinUCB algorithm -- to enable distributed updates of bandits parameter in a
scalable and timely manner. We conduct live experiments in YouTube and show
that Online Matching is able to enhance the capabilities of fresh content
discovery and item exploration in the present platform.
- Abstract(参考訳): 過去10年間、業界規模のレコメンデーションシステムのためのディープラーニングベースのモデルが多くの成功をおさめてきた。
これらのモデルは通常、バッチ形式でオフラインでトレーニングされる。
ユーザの過去のレコメンデーションプラットフォームとのインタラクションを捉えるのに効果的だが、バッチ学習はモデル更新の待ち時間が長く、システムのバイアスに弱いため、分散シフトに適応し、新しいアイテムやユーザの関心を探求することが難しい。
オンライン学習ベースのアプローチ(例えばマルチアームのバンディット)は、これらの課題に取り組む上で有望な理論的結果を示しているが、大規模レコメンデーションシステムにおける実際の実装は限られている。
まず、オンラインのアプローチのスケーラビリティは、大規模なオンライントラフィックの確保と、バンドのパラメータのタイムリーな更新の確保において大きな課題となる。
さらに、レコメンデーションシステムにおける不確実性を探究することは、好ましくないユーザエクスペリエンスをもたらすことが容易であり、エクスプロイトと探索の間のトレードオフを効果的にバランスさせる複雑な戦略を考案する必要性を強調します。
本稿では,ユーザによるアイテムへの直接的なフィードバックをリアルタイムに学習する,スケーラブルなクローズドループバンディットシステムであるOnline Matchingを紹介する。
本システム構築には,エンド・ツー・エンドのシステムアーキテクチャを包括的に展示したハイブリッドな "オフライン+オンライン" アプローチを提案する。
本稿では,LinUCBアルゴリズムの新たな拡張であるDiag-LinUCBを提案する。
我々はYouTubeでライブ実験を行い、オンラインマッチングが、現在のプラットフォームにおける新鮮なコンテンツ発見とアイテム探索の能力を高めることができることを示す。
関連論文リスト
- BayesCNS: A Unified Bayesian Approach to Address Cold Start and Non-Stationarity in Search Systems at Scale [1.1634177851893535]
BayesCNSは、大規模検索システムにおけるコールドスタートおよび非定常分布シフトを処理するように設計されている。
BayesCNSは、オンラインに集められた新しいユーザーインタラクションを継続的に更新するユーザとイテムのインタラクションの事前分布を推定することで、これを達成している。
このオンライン学習手順はランサーモデルによりガイドされ、コンテキスト情報を用いて関連項目の効率的な探索を可能にする。
論文 参考訳(メタデータ) (2024-10-03T01:14:30Z) - Interactive Graph Convolutional Filtering [79.34979767405979]
インタラクティブ・レコメンダ・システム(IRS)は、パーソナライズされた記事レコメンデーション、ソーシャルメディア、オンライン広告など、さまざまな領域でますます利用されている。
これらの問題は、コールドスタート問題とデータスポーサリティ問題によって悪化する。
既存のMulti-Armed Bandit手法は、慎重に設計された探査戦略にもかかわらず、しばしば初期の段階で満足な結果を提供するのに苦労する。
提案手法は,ユーザとアイテム間の協調フィルタリング性能を向上させるため,協調フィルタリングをグラフモデルに拡張する。
論文 参考訳(メタデータ) (2023-09-04T09:02:31Z) - On the Opportunities and Challenges of Offline Reinforcement Learning
for Recommender Systems [36.608400817940236]
強化学習は、推薦システム内の動的なユーザ興味をモデリングするための強力なツールである。
オフライン強化学習における最近の進歩は、新しい視点を示している。
急成長している分野であるにもかかわらず、オフラインの強化学習を利用したレコメンデーションシステムを中心とした作業は依然として限られている。
論文 参考訳(メタデータ) (2023-08-22T10:28:02Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - Augmented Bilinear Network for Incremental Multi-Stock Time-Series
Classification [83.23129279407271]
本稿では,有価証券のセットで事前学習したニューラルネットワークで利用可能な知識を効率的に保持する手法を提案する。
本手法では,既存の接続を固定することにより,事前学習したニューラルネットワークに符号化された事前知識を維持する。
この知識は、新しいデータを用いて最適化された一連の拡張接続によって、新しい証券に対して調整される。
論文 参考訳(メタデータ) (2022-07-23T18:54:10Z) - Scalable and Robust Self-Learning for Skill Routing in Large-Scale
Conversational AI Systems [13.705147776518421]
最先端システムは、自然な会話を可能にするためにモデルベースのアプローチを使用する。
ルーティングの代替を探索するスケーラブルな自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-04-14T17:46:14Z) - Offline Reinforcement Learning for Mobile Notifications [1.965345368500676]
モバイル通知システムは、オンラインプラットフォームにおけるユーザエンゲージメントの推進と維持において重要な役割を担っている。
通知システムにおけるほとんどの機械学習アプリケーションは、応答予測モデルを中心に構築されている。
我々は、強化学習は、パフォーマンスとイテレーションのスピードの観点から、通知システムにとってより良いフレームワークであると主張する。
論文 参考訳(メタデータ) (2022-02-04T22:22:22Z) - Recursive Least-Squares Estimator-Aided Online Learning for Visual
Tracking [58.14267480293575]
オフライン学習を必要とせず、簡単な効果的なオンライン学習手法を提案する。
これは、モデルが以前見たオブジェクトに関する知識を記憶するための、内蔵されたメモリ保持メカニズムを可能にする。
我々は、RT-MDNetにおける多層パーセプトロンと、DiMPにおける畳み込みニューラルネットワークの追跡のためのオンライン学習ファミリーにおける2つのネットワークに基づくアプローチを評価する。
論文 参考訳(メタデータ) (2021-12-28T06:51:18Z) - Non-Stationary Latent Bandits [68.21614490603758]
非定常ユーザに対して高速なパーソナライズのための実践的アプローチを提案する。
鍵となる考え方は、この問題を潜在バンディットとみなすことであり、ユーザ行動のプロトタイプモデルがオフラインで学習され、ユーザの潜伏状態がオンラインで推論される。
我々は,非定常潜伏帯域における後悔最小化のためのトンプソンサンプリングアルゴリズムを提案し,それらを解析し,実世界のデータセット上で評価する。
論文 参考訳(メタデータ) (2020-12-01T10:31:57Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。