論文の概要: Simulation-Based Benchmarking of Reinforcement Learning Agents for Personalized Retail Promotions
- arxiv url: http://arxiv.org/abs/2405.10469v1
- Date: Thu, 16 May 2024 23:27:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-20 17:21:37.695881
- Title: Simulation-Based Benchmarking of Reinforcement Learning Agents for Personalized Retail Promotions
- Title(参考訳): 個人化小売促進のための強化学習エージェントのシミュレーションによるベンチマーク
- Authors: Yu Xia, Sriram Narayanamoorthy, Zhengyuan Zhou, Joshua Mabry,
- Abstract要約: 本稿では,RLエージェントのベンチマークを目的としたショッピング行動の包括的シミュレーションについて述べる。
私たちは、顧客購入履歴を要約したオフラインバッチデータを使用してエージェントを訓練し、この効果を緩和しました。
実験の結果,スパース報酬分布に過度に適合しない文脈的帯域幅と深部RL法は,静的ポリシーよりも有意に優れていた。
- 参考スコア(独自算出の注目度): 17.0313335845013
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of open benchmarking platforms could greatly accelerate the adoption of AI agents in retail. This paper presents comprehensive simulations of customer shopping behaviors for the purpose of benchmarking reinforcement learning (RL) agents that optimize coupon targeting. The difficulty of this learning problem is largely driven by the sparsity of customer purchase events. We trained agents using offline batch data comprising summarized customer purchase histories to help mitigate this effect. Our experiments revealed that contextual bandit and deep RL methods that are less prone to over-fitting the sparse reward distributions significantly outperform static policies. This study offers a practical framework for simulating AI agents that optimize the entire retail customer journey. It aims to inspire the further development of simulation tools for retail AI systems.
- Abstract(参考訳): オープンなベンチマークプラットフォームの開発は、リテールにおけるAIエージェントの採用を大幅に加速する可能性がある。
本稿では,クーポンターゲティングを最適化する強化学習(RL)エージェントのベンチマークを目的とした,ショッピング行動の包括的シミュレーションを提案する。
この学習問題の難しさは、主に顧客の購入イベントの発散によって引き起こされる。
私たちは、顧客購入履歴を要約したオフラインバッチデータを使用してエージェントを訓練し、この効果を緩和しました。
実験の結果,スパース報酬分布の過度に適合しない文脈的帯域幅と深部RL法は,静的ポリシーよりも有意に優れていた。
この研究は、小売店の顧客ジャーニー全体を最適化するAIエージェントをシミュレートするための実践的なフレームワークを提供する。
それは、小売AIシステムのためのシミュレーションツールのさらなる開発を促進することを目的としている。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - An Extremely Data-efficient and Generative LLM-based Reinforcement Learning Agent for Recommenders [1.0154385852423122]
強化学習(RL)アルゴリズムは、長期顧客満足度を最大化し、産業レコメンデーションシステムにおける短期的、筋電図的目標を回避するために有効である。
目標は、RLエージェントをトレーニングして購入報酬を最大化することである。
本報告では, 生成的軌跡を用いて訓練したRL剤についても検討した。
論文 参考訳(メタデータ) (2024-08-28T10:31:50Z) - In-context Learning for Automated Driving Scenarios [15.325910109153616]
現在の強化学習(RL)ベースの自動運転(AD)エージェントにおける重要な課題の1つは、柔軟で正確で人間らしい振る舞いをコスト効率よく達成することである。
本稿では,LL報酬関数を人間中心で直感的かつ効果的に最適化するために,LLM(Large Language Models)を用いた革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-07T09:04:52Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - Revolutionizing Retail Analytics: Advancing Inventory and Customer Insight with AI [0.0]
本稿では,最先端機械学習技術を活用した革新的なアプローチを提案する。
我々は、これらの技術を活用して小売効率と顧客エンゲージメントを向上させる、高度なスマート小売分析システム(SRAS)の構築を目指している。
論文 参考訳(メタデータ) (2024-02-24T11:03:01Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Techniques Toward Optimizing Viewability in RTB Ad Campaigns Using
Reinforcement Learning [0.0]
強化学習(Reinforcement Learning, RL)は、環境との相互作用を通じて意思決定エージェントを訓練する効果的な手法である。
デジタル広告において、リアルタイム入札(Real-time bidding、RTB)は、リアルタイムオークションを通じて広告インベントリを割り当てる一般的な方法である。
論文 参考訳(メタデータ) (2021-05-21T21:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。