論文の概要: Time-Constrained Recommendations: Reinforcement Learning Strategies for E-Commerce
- arxiv url: http://arxiv.org/abs/2512.13726v1
- Date: Sat, 13 Dec 2025 20:32:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.399472
- Title: Time-Constrained Recommendations: Reinforcement Learning Strategies for E-Commerce
- Title(参考訳): 時間制限された勧告:Eコマースのための強化学習戦略
- Authors: Sayak Chakrabarty, Souradip Pal,
- Abstract要約: ユーザの好みと時間予算のパターンを同時に学習する強化学習アルゴリズムを評価する。
この貢献には、(i)マルコフ決定プロセス(MDP)としてモデル化された時間制約付きスレートレコメンデーションを予算対応ユーティリティで統一した定式化、(ii)再ランクデータに基づく政策行動を研究するためのシミュレーションフレームワーク、(iii)法外制御が厳格な時間予算の下でパフォーマンスを向上させるという実証的証拠が含まれる。
- 参考スコア(独自算出の注目度): 3.437656066916039
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unlike traditional recommendation tasks, finite user time budgets introduce a critical resource constraint, requiring the recommender system to balance item relevance and evaluation cost. For example, in a mobile shopping interface, users interact with recommendations by scrolling, where each scroll triggers a list of items called slate. Users incur an evaluation cost - time spent assessing item features before deciding to click. Highly relevant items having higher evaluation costs may not fit within the user's time budget, affecting engagement. In this position paper, our objective is to evaluate reinforcement learning algorithms that learn patterns in user preferences and time budgets simultaneously, crafting recommendations with higher engagement potential under resource constraints. Our experiments explore the use of reinforcement learning to recommend items for users using Alibaba's Personalized Re-ranking dataset supporting slate optimization in e-commerce contexts. Our contributions include (i) a unified formulation of time-constrained slate recommendation modeled as Markov Decision Processes (MDPs) with budget-aware utilities; (ii) a simulation framework to study policy behavior on re-ranking data; and (iii) empirical evidence that on-policy and off-policy control can improve performance under tight time budgets than traditional contextual bandit-based methods.
- Abstract(参考訳): 従来のレコメンデーションタスクとは異なり、有限のユーザ時間予算は重要なリソース制約を導入し、アイテムの関連性と評価コストのバランスを取るためにレコメンダシステムを必要とする。
例えば、モバイルショッピングインターフェースでは、ユーザーはスクロールすることでレコメンデーションと対話し、各スクロールがslateと呼ばれるアイテムのリストをトリガーする。
ユーザーは、クリックを決める前にアイテム機能の評価に費やす時間、評価コストを発生させる。
高い評価コストを持つ関連性の高いアイテムは、ユーザの時間予算に適合せず、エンゲージメントに影響します。
本研究の目的は,ユーザの好みや時間予算のパターンを同時に学習する強化学習アルゴリズムを評価することであり,リソース制約下で高いエンゲージメント能力を持つレコメンデーションを作成することである。
実験では、強化学習を用いて、Eコマースコンテキストにおけるスレート最適化をサポートするAlibabaのパーソナライズされたリグレードデータセットを使用して、ユーザに推奨するアイテムについて検討した。
コントリビューションには
一 予算に配慮した効力を有するマルコフ決定プロセス(MDP)としてモデル化された時間制約スレート勧告の統一的な定式化
二 再分類データに関する政策行動を研究するためのシミュレーション・フレームワーク
三 従来の文脈的盗賊法よりも厳格な時間予算の下で、政治及び政治以外の統制がパフォーマンスを向上させるという実証的証拠。
関連論文リスト
- Reinforcement Learning for Durable Algorithmic Recourse [49.54997446851335]
提案手法は,提案手法を用いて,候補集団が推薦に応じてどのように適応するかを明示的にモデル化する。
また、環境の進化的ダイナミクスをキャプチャするRLベースのリコースアルゴリズムも導入する。
論文 参考訳(メタデータ) (2025-09-26T09:24:12Z) - Cost-aware Stopping for Bayesian Optimization [46.95172329282389]
本稿では,様々な評価コストに適応し,チューニングが不要なベイズ最適化のためのコスト対応停止則を提案する。
我々は,最先端の取得関数と組み合わせた場合,停止規則によって得られる期待累積評価コストを拘束する理論的な保証を証明した。
論文 参考訳(メタデータ) (2025-07-16T17:54:14Z) - Churn-Aware Recommendation Planning under Aggregated Preference Feedback [6.261444979025644]
本稿では,近年の規制と技術の変化を動機とした逐次的意思決定問題について考察する。
我々はRec-APCモデルを導入し、匿名ユーザを既知の先行ユーザ型から抽出する。
最適ポリシが有限時間で純粋な利用に収束することを証明し、それらを効率的に計算するための分岐とバウンドのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-07-06T19:22:47Z) - Cost-Optimal Active AI Model Evaluation [71.2069549142394]
生成AIシステムの開発には、継続的な評価、データ取得、アノテーションが必要である。
我々は、安価だがしばしば不正確で弱いレーダの使用を積極的にバランスさせる新しいコスト認識手法を開発した。
我々は、弱者と強者の間で所定のアノテーション予算を割り当てるためのコスト最適化政策のファミリーを導出する。
論文 参考訳(メタデータ) (2025-06-09T17:14:41Z) - What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context [56.590259941275434]
RecPOは、シーケンシャルなレコメンデーションのための優先順位最適化フレームワークである。
これは、推定された嗜好階層と時間信号に基づいて適応的な報酬マージンを利用する。
タイムリーな満足感、コヒーレントな嗜好の維持、変化する状況下での識別の行使など、人間の意思決定の重要な特徴を反映している。
論文 参考訳(メタデータ) (2025-06-02T21:09:29Z) - Price-guided user attention in large-scale E-commerce group recommendation [4.899646467568438]
実世界のEコマースデータセット上で広く利用されているグループ推薦モデルから,ユーザの注意点を分析した。
本稿では,ユーザアグリゲーションの指針として,アイテム価格を取り入れたグループ推薦手法を提案する。
以上の結果から,我々の価格誘導型ユーザアテンションアプローチは,ヒット率と平均二乗誤差で最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-10-02T22:46:51Z) - Optimizing Long-term Value for Auction-Based Recommender Systems via
On-Policy Reinforcement Learning [4.980374959955476]
オークションベースのレコメンデーターシステムはオンライン広告プラットフォームで広く使われているが、通常、すぐに期待されるリターン指標に基づいてレコメンデーションスロットを割り当てるように最適化されている。
オークションベースのレコメンデーションシステムにおいて,長期リターン指標の最適化に強化学習を用いる。
論文 参考訳(メタデータ) (2023-05-23T07:04:38Z) - Reward Constrained Interactive Recommendation with Natural Language
Feedback [158.8095688415973]
制約強化強化学習(RL)フレームワークを提案する。
具体的には,ユーザの過去の嗜好に反するレコメンデーションを検出するために,識別器を利用する。
提案するフレームワークは汎用的であり,制約付きテキスト生成のタスクにさらに拡張されている。
論文 参考訳(メタデータ) (2020-05-04T16:23:34Z) - Hierarchical Adaptive Contextual Bandits for Resource Constraint based
Recommendation [49.69139684065241]
コンテキスト多重武装バンディット(MAB)は、様々な問題において最先端のパフォーマンスを達成する。
本稿では,階層型適応型文脈帯域幅法(HATCH)を提案する。
論文 参考訳(メタデータ) (2020-04-02T17:04:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。