Fugu-MT 論文翻訳(概要): Simulation-Based Benchmarking of Reinforcement Learning Agents for Personalized Retail Promotions

論文の概要: Simulation-Based Benchmarking of Reinforcement Learning Agents for Personalized Retail Promotions

arxiv url: http://arxiv.org/abs/2405.10469v1
Date: Thu, 16 May 2024 23:27:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-20 17:21:37.695881
Title: Simulation-Based Benchmarking of Reinforcement Learning Agents for Personalized Retail Promotions
Title（参考訳）: 個人化小売促進のための強化学習エージェントのシミュレーションによるベンチマーク
Authors: Yu Xia, Sriram Narayanamoorthy, Zhengyuan Zhou, Joshua Mabry,
Abstract要約: 本稿では,RLエージェントのベンチマークを目的としたショッピング行動の包括的シミュレーションについて述べる。私たちは、顧客購入履歴を要約したオフラインバッチデータを使用してエージェントを訓練し、この効果を緩和しました。実験の結果,スパース報酬分布に過度に適合しない文脈的帯域幅と深部RL法は,静的ポリシーよりも有意に優れていた。
参考スコア（独自算出の注目度）: 17.0313335845013
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The development of open benchmarking platforms could greatly accelerate the adoption of AI agents in retail. This paper presents comprehensive simulations of customer shopping behaviors for the purpose of benchmarking reinforcement learning (RL) agents that optimize coupon targeting. The difficulty of this learning problem is largely driven by the sparsity of customer purchase events. We trained agents using offline batch data comprising summarized customer purchase histories to help mitigate this effect. Our experiments revealed that contextual bandit and deep RL methods that are less prone to over-fitting the sparse reward distributions significantly outperform static policies. This study offers a practical framework for simulating AI agents that optimize the entire retail customer journey. It aims to inspire the further development of simulation tools for retail AI systems.
Abstract（参考訳）: オープンなベンチマークプラットフォームの開発は、リテールにおけるAIエージェントの採用を大幅に加速する可能性がある。本稿では,クーポンターゲティングを最適化する強化学習(RL)エージェントのベンチマークを目的とした,ショッピング行動の包括的シミュレーションを提案する。この学習問題の難しさは、主に顧客の購入イベントの発散によって引き起こされる。私たちは、顧客購入履歴を要約したオフラインバッチデータを使用してエージェントを訓練し、この効果を緩和しました。実験の結果,スパース報酬分布の過度に適合しない文脈的帯域幅と深部RL法は,静的ポリシーよりも有意に優れていた。この研究は、小売店の顧客ジャーニー全体を最適化するAIエージェントをシミュレートするための実践的なフレームワークを提供する。それは、小売AIシステムのためのシミュレーションツールのさらなる開発を促進することを目的としている。

関連論文リスト

Good Learners Think Their Thinking: Generative PRM Makes Large Reasoning Model More Efficient Math Learner [31.033131727230277]
大規模推論モデル(LRM)は、Reinforcement Learning (RL) で最適化された複雑な数学問題の解法において、最近約束されている。本稿では,RLに基づく学習における大きなボトルネックに対処するため,思考レベルで機能する固有信号駆動型生成過程評価機構を提案する。 1.5B と 7B のパラメータ LRM を用いた実験により,結果のみの報酬ベースラインよりもトレーニングサンプルが有意に少ない問題解精度が得られた。
論文参考訳（メタデータ） (2025-07-31T07:54:58Z)
Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文参考訳（メタデータ） (2025-07-26T07:53:11Z)
Shop-R1: Rewarding LLMs to Simulate Human Behavior in Online Shopping via Reinforcement Learning [27.226155951073064]
Shop-R1は大規模言語モデル(LLM)の推論能力向上を目的とした新しい強化学習フレームワークである合理的な生成には、内部モデル信号(例えば、ロジット分布)を活用して、推論プロセスを自己管理的に導く。行動予測のために,報酬ハッキングを防止するため,スケーリングの難しさを考慮した階層型報酬構造を提案する。
論文参考訳（メタデータ） (2025-07-23T18:10:43Z)
Enhancing Training Data Attribution with Representational Optimization [57.61977909113113]
トレーニングデータ属性法は、トレーニングデータがモデルの予測にどのように影響するかを測定することを目的としている。本稿では,タスク固有表現とモデル整合表現をTDAで明示的に学習することで,このギャップを埋める表現ベースアプローチであるAirRepを提案する。 AirRepは、属性品質に合わせて調整されたトレーニング可能なエンコーダと、グループワイドの影響を正確に見積もるアテンションベースのプール機構の2つの重要なイノベーションを紹介している。
論文参考訳（メタデータ） (2025-05-24T05:17:53Z)
Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文参考訳（メタデータ） (2025-03-18T14:02:59Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
An Extremely Data-efficient and Generative LLM-based Reinforcement Learning Agent for Recommenders [1.0154385852423122]
強化学習(RL)アルゴリズムは、長期顧客満足度を最大化し、産業レコメンデーションシステムにおける短期的、筋電図的目標を回避するために有効である。目標は、RLエージェントをトレーニングして購入報酬を最大化することである。本報告では, 生成的軌跡を用いて訓練したRL剤についても検討した。
論文参考訳（メタデータ） (2024-08-28T10:31:50Z)
In-context Learning for Automated Driving Scenarios [15.325910109153616]
現在の強化学習(RL)ベースの自動運転(AD)エージェントにおける重要な課題の1つは、柔軟で正確で人間らしい振る舞いをコスト効率よく達成することである。本稿では,LL報酬関数を人間中心で直感的かつ効果的に最適化するために,LLM(Large Language Models)を用いた革新的なアプローチを提案する。
論文参考訳（メタデータ） (2024-05-07T09:04:52Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)
Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。 3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文参考訳（メタデータ） (2024-03-04T21:50:29Z)
Revolutionizing Retail Analytics: Advancing Inventory and Customer Insight with AI [0.0]
本稿では,最先端機械学習技術を活用した革新的なアプローチを提案する。我々は、これらの技術を活用して小売効率と顧客エンゲージメントを向上させる、高度なスマート小売分析システム(SRAS)の構築を目指している。
論文参考訳（メタデータ） (2024-02-24T11:03:01Z)
Take the Bull by the Horns: Hard Sample-Reweighted Continual Training Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文参考訳（メタデータ） (2024-02-22T04:10:57Z)
Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文参考訳（メタデータ） (2022-09-24T14:22:29Z)
Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文参考訳（メタデータ） (2022-02-17T02:44:05Z)
Techniques Toward Optimizing Viewability in RTB Ad Campaigns Using Reinforcement Learning [0.0]
強化学習(Reinforcement Learning, RL)は、環境との相互作用を通じて意思決定エージェントを訓練する効果的な手法である。デジタル広告において、リアルタイム入札(Real-time bidding、RTB)は、リアルタイムオークションを通じて広告インベントリを割り当てる一般的な方法である。
論文参考訳（メタデータ） (2021-05-21T21:56:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。