Fugu-MT 論文翻訳(概要): Modelling Customer Trajectories with Reinforcement Learning for Practical Retail Insights

論文の概要: Modelling Customer Trajectories with Reinforcement Learning for Practical Retail Insights

arxiv url: http://arxiv.org/abs/2605.18449v1
Date: Mon, 18 May 2026 14:17:51 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-19 17:57:49.710651
Title: Modelling Customer Trajectories with Reinforcement Learning for Practical Retail Insights
Title（参考訳）: 実践的リテールインサイトのための強化学習による顧客軌道のモデル化
Authors: Ken Ming Lee, Paul Barde, Maxime C. Cohen, Derek Nowrouzezahrai,
Abstract要約: トラベリングセールスマン問題(TSP)のようなヒューリスティックスは、一般的に安価な近似として使用される。実際の軌道は、最短経路から平均で28%ずれており、精度と実用性の間のトレードオフを強調している。本稿では,軌道予測を最大エントロピー強化学習として活用するエージェントベースモデリングフレームワークを提案する。
参考スコア（独自算出の注目度）: 6.143744262581817
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Understanding customer movement within retail spaces is essential for optimizing store layouts. Real-world trajectory data can provide highly accurate insights, but collecting it is costly and often infeasible for many retailers. Heuristics such as Travelling Salesman Problem (TSP) and Probabilistic Nearest Neighbours (PNN) are commonly used as inexpensive approximations, but actual customer trajectories deviate by an average of 28% from shortest paths, highlighting a tradeoff between accuracy and practicality. We propose an agent-based modelling framework that casts customer trajectory prediction as a maximum entropy reinforcement learning (RL) problem, balancing reward maximization with stochasticity to better reflect customers with bounded rationality. Using real-world trajectory data from a convenience store, we show that RL-generated trajectories align more closely with customer behaviour than TSP and PNN, providing more accurate estimates of impulse purchase rates and shelf traffic densities. Furthermore, only RL-based predictions yield repositioning decisions for impulse products that align with those derived from actual trajectory data, resulting in comparable estimated profit gains. Our work demonstrates that RL provides a practical, behaviourally grounded alternative that bridges the gap between oversimplified heuristics and data-intensive approaches, making accurate layout optimization more accessible. To encourage further research, the source code is available on GitHub.
Abstract（参考訳）: 店舗レイアウトの最適化には,小売店内の顧客移動を理解することが不可欠である。現実世界の軌跡データは、非常に正確な洞察を提供することができるが、多くの小売業者にとって、それを収集することは費用がかかり、しばしば不可能である。トラベリングセールスマン問題(TSP)やPNN(Probabilistic Nearest Neighbours)といったヒューリスティックな手法は安価な近似法として一般的に用いられているが、実際の顧客軌道は最短経路から平均28%ずれており、精度と実用性の間のトレードオフを浮き彫りにしている。本稿では,顧客軌道予測を最大エントロピー強化学習(RL)問題とみなすエージェントベースモデリングフレームワークを提案する。コンビニエンスストアのリアルなトラジェクトリデータを用いて、RL生成トラジェクトリは、TSPやPNNよりも顧客行動と密に一致し、インパルス購入率やシェルフトラフィック密度をより正確に推定できることを示す。さらに、RLに基づく予測のみは、実際の軌跡データから導出されたものと一致したインパルス生成物に対する再配置決定を導出し、その結果、推定利益率に匹敵する。我々の研究は、RLが過度に単純化されたヒューリスティックとデータ集約的なアプローチのギャップを埋め、正確なレイアウト最適化をよりアクセスしやすくする、実践的で行動に根ざした代替手段を提供することを示した。さらなる研究を促進するため、ソースコードはGitHubで入手できる。

関連論文リスト

ProAct: Agentic Lookahead in Interactive Environments [56.50613398808361]
ProActは、2段階のトレーニングパラダイムを通じて、エージェントが正確なルックアヘッド推論を内部化することを可能にするフレームワークである。そこでは,環境に基づく探索から得られたトラジェクトリの微調整をエージェントが行うGLAD(Grounded LookAhead Distillation)を紹介する。また,政策段階のアルゴリズムを改良する補助値推定器であるモンテカルロ批判(MC-Critic)を提案する。
論文参考訳（メタデータ） (2026-02-05T05:45:16Z)
Offline RL by Reward-Weighted Fine-Tuning for Conversation Optimization [44.3655156382259]
大規模言語モデル(LLM)を用いたオフラインRLの実践的アプローチを提案する。我々は、この問題を報酬重み付けファインチューニングとして再考し、教師付きファインチューニング(SFT)と同様の手法を用いて解決することができる。
論文参考訳（メタデータ） (2025-06-08T01:59:30Z)
Enhancing Training Data Attribution with Representational Optimization [57.61977909113113]
トレーニングデータ属性法は、トレーニングデータがモデルの予測にどのように影響するかを測定することを目的としている。本稿では,タスク固有表現とモデル整合表現をTDAで明示的に学習することで,このギャップを埋める表現ベースアプローチであるAirRepを提案する。 AirRepは、属性品質に合わせて調整されたトレーニング可能なエンコーダと、グループワイドの影響を正確に見積もるアテンションベースのプール機構の2つの重要なイノベーションを紹介している。
論文参考訳（メタデータ） (2025-05-24T05:17:53Z)
In-Dataset Trajectory Return Regularization for Offline Preference-based Reinforcement Learning [15.369324784520538]
In-Dataset Trajectory Return Regularization (DTR) を提案する。 DTRは報酬バイアスの下で不正確な軌道縫合を学習するリスクを軽減する。また,複数の報酬モデルを効果的に統合するアンサンブル正規化手法を導入する。
論文参考訳（メタデータ） (2024-12-12T09:35:47Z)
Hindsight Preference Learning for Offline Preference-based Reinforcement Learning [22.870967604847458]
オフライン選好に基づく強化学習(RL)は、オフラインデータセットから選択された軌道セグメントのペア間の人間の選好を使ってポリシーを最適化することに焦点を当てる。本研究では,軌道セグメントの今後の成果を条件とした報酬を用いて,人間の嗜好をモデル化する。提案手法であるHindsight Preference Learning (HPL) は,大規模な未ラベルデータセットで利用可能な膨大なトラジェクトリデータをフル活用することにより,クレジットの割り当てを容易にする。
論文参考訳（メタデータ） (2024-07-05T12:05:37Z)
Simulation-Based Benchmarking of Reinforcement Learning Agents for Personalized Retail Promotions [17.0313335845013]
本稿では,RLエージェントのベンチマークを目的としたショッピング行動の包括的シミュレーションについて述べる。私たちは、顧客購入履歴を要約したオフラインバッチデータを使用してエージェントを訓練し、この効果を緩和しました。実験の結果,スパース報酬分布に過度に適合しない文脈的帯域幅と深部RL法は,静的ポリシーよりも有意に優れていた。
論文参考訳（メタデータ） (2024-05-16T23:27:21Z)
Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-22T02:12:08Z)
Prompt-Tuning Decision Transformer with Preference Ranking [83.76329715043205]
本稿では,環境情報取得におけるRLエージェントの誘導手法としてトラジェクトリセグメントを用いたPrompt-Tuning DTアルゴリズムを提案する。提案手法では,ガウス分布をランダムにサンプリングしてプロンプト軌道の要素を微調整し,選好ランク関数を用いて最適化方向を求める。我々の研究は、RLにおける迅速な調整手法の進歩に寄与し、特定の選好タスクに対して大規模RLエージェントを最適化するための有望な方向性を提供する。
論文参考訳（メタデータ） (2023-05-16T17:49:04Z)
Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文参考訳（メタデータ） (2023-02-03T00:11:02Z)
Human-in-the-loop: Provably Efficient Preference-based Reinforcement Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-05-23T09:03:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。