論文の概要: Do Not Wait: Learning Re-Ranking Model Without User Feedback At Serving Time in E-Commerce
- arxiv url: http://arxiv.org/abs/2406.14004v1
- Date: Thu, 20 Jun 2024 05:15:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 17:17:16.729969
- Title: Do Not Wait: Learning Re-Ranking Model Without User Feedback At Serving Time in E-Commerce
- Title(参考訳): 待つな:Eコマースでユーザーフィードバックなしで再帰モデルを学習する
- Authors: Yuan Wang, Zhiyu Li, Changshuo Zhang, Sirui Chen, Xiao Zhang, Jun Xu, Quan Lin,
- Abstract要約: 本稿では,LASTというオンライン学習手法を新たに拡張したモデリング手法を提案する。
代理モデルを用いて、モデル改善を操縦するために必要な指導信号を提供することにより、ユーザフィードバックの要求を回避する。
LASTは既存のオンライン学習システムにシームレスに統合され、より適応的でレスポンシブなレコメンデーションエクスペリエンスを作成することができる。
- 参考スコア(独自算出の注目度): 16.316227411757797
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recommender systems have been widely used in e-commerce, and re-ranking models are playing an increasingly significant role in the domain, which leverages the inter-item influence and determines the final recommendation lists. Online learning methods keep updating a deployed model with the latest available samples to capture the shifting of the underlying data distribution in e-commerce. However, they depend on the availability of real user feedback, which may be delayed by hours or even days, such as item purchases, leading to a lag in model enhancement. In this paper, we propose a novel extension of online learning methods for re-ranking modeling, which we term LAST, an acronym for Learning At Serving Time. It circumvents the requirement of user feedback by using a surrogate model to provide the instructional signal needed to steer model improvement. Upon receiving an online request, LAST finds and applies a model modification on the fly before generating a recommendation result for the request. The modification is request-specific and transient. It means the modification is tailored to and only to the current request to capture the specific context of the request. After a request, the modification is discarded, which helps to prevent error propagation and stabilizes the online learning procedure since the predictions of the surrogate model may be inaccurate. Most importantly, as a complement to feedback-based online learning methods, LAST can be seamlessly integrated into existing online learning systems to create a more adaptive and responsive recommendation experience. Comprehensive experiments, both offline and online, affirm that LAST outperforms state-of-the-art re-ranking models.
- Abstract(参考訳): レコメンダシステムは電子商取引で広く使われており、ドメインにおいて再ランクのモデルがますます重要な役割を担い、そのインフルエンスを活用して最終レコメンデーションリストを決定する。
オンライン学習手法は、Eコマースにおける基盤となるデータ配布のシフトを捉えるために、最新のサンプルでデプロイされたモデルを更新し続ける。
しかし、それらは実際のユーザフィードバックの可用性に依存しており、アイテム購入のような数時間や数日遅れる可能性があるため、モデルの強化が遅れる。
本稿では,LAST(Learning At Serving Time)の略語であるLAST(Learning At Serving Time)という,モデリングの階層化のためのオンライン学習手法の新たな拡張を提案する。
代理モデルを用いて、モデル改善を操縦するために必要な指導信号を提供することにより、ユーザフィードバックの要求を回避する。
オンラインリクエストを受信すると、LASTはリクエストのレコメンデーション結果を生成する前に、モデル修正をオンザフライで見つけて適用する。
変更はリクエスト固有であり、トランジェントである。
変更は、要求の特定のコンテキストをキャプチャするために、現在の要求にのみ調整されることを意味する。
要求後、修正は破棄され、これはエラーの伝播を防止し、代理モデルの予測が不正確である可能性があるため、オンライン学習手順を安定化させる。
最も重要なことは、フィードバックベースのオンライン学習手法を補完するものとして、LASTを既存のオンライン学習システムにシームレスに統合して、より適応的で応答性の高いレコメンデーションエクスペリエンスを作成することができることです。
総合的な実験は、オフラインとオンラインの両方で、LASTが最先端の再評価モデルを上回っていることを確認している。
関連論文リスト
- Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z) - Online Bandit Learning with Offline Preference Data [15.799929216215672]
ノイズの多い選好フィードバックを持つオフラインデータセットでウォームスタートできるオンライン学習のための後部サンプリングアルゴリズムを提案する。
生成したエキスパートの“コンピテンス”をモデル化することで、そのようなデータセットを最も効果的に利用できることを示します。
論文 参考訳(メタデータ) (2024-06-13T20:25:52Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - Direct Language Model Alignment from Online AI Feedback [78.40436231613754]
嗜好からの直接アライメント(DAP)手法は、人間フィードバックからの強化学習(RLHF)の効果的な代替手段として最近登場した。
本研究では,オンラインフィードバックが鍵であり,DAP法の改善を図っている。
オンラインAIフィードバック(OAIF)はLLMをアノテータとして使用し、トレーニング毎に現在のモデルから2つのレスポンスをサンプリングし、LLMアノテータにどちらが好まれるかを選択し、オンラインフィードバックを提供する。
論文 参考訳(メタデータ) (2024-02-07T12:31:13Z) - Netflix and Forget: Efficient and Exact Machine Unlearning from
Bi-linear Recommendations [15.789980605221672]
本稿では,行列補完に基づくリコメンデーションのための単純だが広範囲に展開されたバイ線形モデルに焦点を当てる。
本研究は,Alternating Least Squaresの下での微調整手順にいくつかの重要な変更を加えることにより,Unlearn-ALSを開発した。
実験の結果,Unlearn-ALSは幻想的モデル劣化を伴わない再訓練と整合性を示し,急速な収束を示した。
論文 参考訳(メタデータ) (2023-02-13T20:27:45Z) - Effective and Efficient Training for Sequential Recommendation using
Recency Sampling [91.02268704681124]
本稿では,新しいRecency-based Smpling of Sequencesトレーニング目標を提案する。
提案手法により拡張されたモデルにより,最先端のBERT4Recに近い性能が得られることを示す。
論文 参考訳(メタデータ) (2022-07-06T13:06:31Z) - Re-parameterizing Your Optimizers rather than Architectures [119.08740698936633]
本稿では,モデル固有の事前知識を構造学に取り入れ,汎用モデル(簡易モデル)の学習に使用する新しいパラダイムを提案する。
実装として,モデル固有のハイパーパラメータの集合に従って勾配を変更することによって,事前知識を付加する手法を提案する。
Reprでトレーニングされた単純なモデルに対しては、VGGスタイルのプレーンモデルに注目し、ReprでトレーニングされたそのようなシンプルなモデルがRep-VGGと呼ばれ、最近のよく設計されたモデルと同等に動作することを示す。
論文 参考訳(メタデータ) (2022-05-30T16:55:59Z) - New Insights on Reducing Abrupt Representation Change in Online
Continual Learning [69.05515249097208]
我々は、以前に観測されていないクラスが入ってくるデータストリームに現れるときに発生する観測データの表現の変化に焦点を当てる。
Experience Replayを適用すると、新たに追加されたクラスの表現が以前のクラスと大幅に重複することを示します。
本稿では,新しいクラスに対応するために,学習した表現を劇的な適応から保護することで,この問題を緩和する手法を提案する。
論文 参考訳(メタデータ) (2022-03-08T01:37:00Z) - Incremental Learning for Personalized Recommender Systems [8.020546404087922]
トレーニング効率とモデル品質の両方を提供するために,インクリメンタルな学習ソリューションを提案する。
このソリューションはLinkedInにデプロイされ、産業規模のレコメンデーションシステムに直接適用される。
論文 参考訳(メタデータ) (2021-08-13T04:21:21Z) - WeiPS: a symmetric fusion model framework for large-scale online
learning [6.88870384575896]
モデルトレーニングとモデル推論を統合した、WeiPSと呼ばれる対称融合オンライン学習システムフレームワークを提案する。
具体的には、一貫性要件を満たすために、ストリーミング更新メカニズムによる第2レベルのモデルデプロイメントを実行する。
マルチレベルのフォールトトレランスとリアルタイムドミノ劣化を使用して高可用性要求を実現する。
論文 参考訳(メタデータ) (2020-11-24T09:25:39Z) - ADER: Adaptively Distilled Exemplar Replay Towards Continual Learning
for Session-based Recommendation [28.22402119581332]
セッションベースのレコメンデーションは最近、プライバシーの懸念が高まり、注目を集めている。
本稿では,従来のトレーニングサンプルを定期的に再生することで,ADER(Adaptively Distilled Exemplar Replay)と呼ばれる手法を提案する。
ADERは他のベースラインを一貫して上回り、更新サイクル毎にすべての履歴データを使用してメソッドを上回ります。
論文 参考訳(メタデータ) (2020-07-23T13:19:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。