論文の概要: Deep Reinforcement Learning-Based Product Recommender for Online
Advertising
- arxiv url: http://arxiv.org/abs/2102.00333v1
- Date: Sat, 30 Jan 2021 23:05:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-02 16:44:10.944685
- Title: Deep Reinforcement Learning-Based Product Recommender for Online
Advertising
- Title(参考訳): オンライン広告のためのDeep Reinforcement Learning-based Product Recommender
- Authors: Milad Vaali Esfahaani, Yanbo Xue, and Peyman Setoodeh
- Abstract要約: 本稿では,オンライン広告のレコメンデータシステムを設計するために,価値ベースとポリシーベースのディープRLアルゴリズムを比較した。
推奨項目のクリックスルーレート(CTR)を最大化する。
- 参考スコア(独自算出の注目度): 1.7778609937758327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In online advertising, recommender systems try to propose items from a list
of products to potential customers according to their interests. Such systems
have been increasingly deployed in E-commerce due to the rapid growth of
information technology and availability of large datasets. The ever-increasing
progress in the field of artificial intelligence has provided powerful tools
for dealing with such real-life problems. Deep reinforcement learning (RL) that
deploys deep neural networks as universal function approximators can be viewed
as a valid approach for design and implementation of recommender systems. This
paper provides a comparative study between value-based and policy-based deep RL
algorithms for designing recommender systems for online advertising. The
RecoGym environment is adopted for training these RL-based recommender systems,
where the long short term memory (LSTM) is deployed to build value and policy
networks in these two approaches, respectively. LSTM is used to take account of
the key role that order plays in the sequence of item observations by users.
The designed recommender systems aim at maximising the click-through rate (CTR)
for the recommended items. Finally, guidelines are provided for choosing proper
RL algorithms for different scenarios that the recommender system is expected
to handle.
- Abstract(参考訳): オンライン広告では、レコメンダーシステムは、関心に応じて潜在的な顧客に製品のリストからアイテムを提案しようとします。
このようなシステムは、情報技術の急速な成長と大規模データセットの可用性により、電子商取引にますます展開されている。
人工知能の分野における進歩は、このような現実の問題に対処するための強力なツールを提供してきた。
深層ニューラルネットワークを普遍関数近似器としてデプロイする深層強化学習(RL)は、推奨システムの設計と実装に有効なアプローチであると見なすことができる。
本稿では,オンライン広告のレコメンダシステムを設計するための,価値ベースとポリシーベースの深層rlアルゴリズムの比較研究を行う。
RecoGym環境は、これらのRLベースのレコメンデータシステムのトレーニングに採用され、長期記憶(LSTM)がこれら2つのアプローチでそれぞれ価値とポリシーネットワークを構築するためにデプロイされる。
LSTMは、注文がユーザによるアイテム観察のシーケンスで果たす重要な役割を考慮に入れるために使用される。
デザインされたレコメンダーシステムは、推奨アイテムのクリックスルー率(CTR)を最大化することを目指しています。
最後に、レコメンダーシステムが取り扱うと予想されるさまざまなシナリオに適したRLアルゴリズムを選択するためのガイドラインが提供される。
関連論文リスト
- Large Language Model Empowered Embedding Generator for Sequential Recommendation [57.49045064294086]
大言語モデル(LLM)は、その人気に関係なく、項目間の意味的関係を理解する能力を持つ。
LLMEmbは、LCMを利用してアイテム埋め込みを作成し、シークエンシャル・レコメンダ・システムの性能を高める革新的な技術である。
論文 参考訳(メタデータ) (2024-09-30T03:59:06Z) - Efficient and Deployable Knowledge Infusion for Open-World Recommendations via Large Language Models [53.547190001324665]
大規模言語モデル(LLM)からユーザとアイテムに関する2種類の外部知識を取得するためのREKIを提案する。
個別の知識抽出と個別の知識抽出を,異なるシナリオのスケールに合わせて開発し,オフラインのリソース消費を効果的に削減する。
実験によると、REKIは最先端のベースラインより優れており、多くの推奨アルゴリズムやタスクと互換性がある。
論文 参考訳(メタデータ) (2024-08-20T03:45:24Z) - LANE: Logic Alignment of Non-tuning Large Language Models and Online Recommendation Systems for Explainable Reason Generation [15.972926854420619]
大きな言語モデル(LLM)を活用することで、包括的なレコメンデーションロジック生成の新しい機会を提供する。
レコメンデーションタスクのための微調整LDMモデルは、計算コストと既存のシステムとのアライメントの問題を引き起こす。
本研究は,LLMとオンラインレコメンデーションシステムとの連携を,LLMのチューニングを伴わない効果的戦略LANEを提案する。
論文 参考訳(メタデータ) (2024-07-03T06:20:31Z) - EASRec: Elastic Architecture Search for Efficient Long-term Sequential
Recommender Systems [82.76483989905961]
現在のSRS(Sequential Recommender Systems)は、計算とリソースの非効率に悩まされている。
我々は、効率的な長期シーケンスレコメンダシステム(EASRec)のための弾性アーキテクチャー探索を開発する。
EASRecは、入力データバッチから履歴情報を活用するデータ認識ゲートを導入し、レコメンデーションネットワークの性能を改善する。
論文 参考訳(メタデータ) (2024-02-01T07:22:52Z) - Recommender Systems in the Era of Large Language Models (LLMs) [62.0129013439038]
大規模言語モデル(LLM)は自然言語処理(NLP)と人工知能(AI)の分野に革命をもたらした。
我々は, プレトレーニング, ファインチューニング, プロンプティングなどの様々な側面から, LLM を利用したレコメンデータシステムの総合的なレビューを行う。
論文 参考訳(メタデータ) (2023-07-05T06:03:40Z) - Towards High-Order Complementary Recommendation via Logical Reasoning
Network [19.232457960085625]
本稿では論理的推論ネットワーク LOGIREC を提案し,製品の埋め込みを学習する。
LOGIRECは製品間の非対称的な相補関係を捉えることができる。
また,より汎用的な製品表現の学習に最適化されたハイブリッドネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-09T16:27:03Z) - Improving Long-Term Metrics in Recommendation Systems using
Short-Horizon Offline RL [56.20835219296896]
セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。
我々は、セッション間のポリシーによる分散シフトを近似するショートホライズンポリシー改善(SHPI)と呼ばれる新しいバッチRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-01T15:58:05Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z) - Stacked Auto Encoder Based Deep Reinforcement Learning for Online
Resource Scheduling in Large-Scale MEC Networks [44.40722828581203]
オンラインリソーススケジューリングフレームワークは、IoT(Internet of Things)の全ユーザに対して、重み付けされたタスクレイテンシの総和を最小化するために提案されている。
以下を含む深層強化学習(DRL)に基づく解法を提案する。
DRLがポリシーネットワークをトレーニングし、最適なオフロードポリシーを見つけるのを支援するために、保存および優先されたエクスペリエンスリプレイ(2p-ER)を導入する。
論文 参考訳(メタデータ) (2020-01-24T23:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。