論文の概要: MODRL-TA:A Multi-Objective Deep Reinforcement Learning Framework for Traffic Allocation in E-Commerce Search
- arxiv url: http://arxiv.org/abs/2407.15476v1
- Date: Mon, 22 Jul 2024 08:40:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 15:40:55.034133
- Title: MODRL-TA:A Multi-Objective Deep Reinforcement Learning Framework for Traffic Allocation in E-Commerce Search
- Title(参考訳): MODRL-TA:Eコマース検索における交通割当のための多目的深層強化学習フレームワーク
- Authors: Peng Cheng, Huimu Wang, Jinyuan Zhao, Yihao Wang, Enqiang Xu, Yu Zhao, Zhuojian Xiao, Songlin Wang, Guoyu Tang, Lin Liu, Sulong Xu,
- Abstract要約: 本稿では、多目的Q-ラーニング(MOQ)と、クロスエントロピー法(CEM)に基づく決定融合アルゴリズム(DFM)と、プログレッシブデータ拡張システム(PDA)からなる多目的深層強化学習フレームワークを提案する。
実世界のオンラインeコマースシステムの実験は、MODRL-TAの大幅な改善を実証している。
- 参考スコア(独自算出の注目度): 13.893431289065997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traffic allocation is a process of redistributing natural traffic to products by adjusting their positions in the post-search phase, aimed at effectively fostering merchant growth, precisely meeting customer demands, and ensuring the maximization of interests across various parties within e-commerce platforms. Existing methods based on learning to rank neglect the long-term value of traffic allocation, whereas approaches of reinforcement learning suffer from balancing multiple objectives and the difficulties of cold starts within realworld data environments. To address the aforementioned issues, this paper propose a multi-objective deep reinforcement learning framework consisting of multi-objective Q-learning (MOQ), a decision fusion algorithm (DFM) based on the cross-entropy method(CEM), and a progressive data augmentation system(PDA). Specifically. MOQ constructs ensemble RL models, each dedicated to an objective, such as click-through rate, conversion rate, etc. These models individually determine the position of items as actions, aiming to estimate the long-term value of multiple objectives from an individual perspective. Then we employ DFM to dynamically adjust weights among objectives to maximize long-term value, addressing temporal dynamics in objective preferences in e-commerce scenarios. Initially, PDA trained MOQ with simulated data from offline logs. As experiments progressed, it strategically integrated real user interaction data, ultimately replacing the simulated dataset to alleviate distributional shifts and the cold start problem. Experimental results on real-world online e-commerce systems demonstrate the significant improvements of MODRL-TA, and we have successfully deployed MODRL-TA on an e-commerce search platform.
- Abstract(参考訳): 交通割当とは、検索後の段階において、商店の成長を効果的に促進し、顧客の要求を正確に満たし、電子商取引プラットフォーム内の様々な当事者間の利益の最大化を確保することを目的として、自然交通を製品に再分配するプロセスである。
既存の学習手法では、交通割当の長期的価値を無視する一方で、強化学習のアプローチでは複数の目標のバランスがとられ、現実のデータ環境内では寒さの難しさが始まります。
上記の課題に対処するために,多目的Q-ラーニング(MOQ)と,クロスエントロピー法(CEM)に基づく決定融合アルゴリズム(DFM)と,プログレッシブデータ拡張システム(PDA)からなる多目的深層強化学習フレームワークを提案する。
特に。
MOQはエンサンブルRLモデルを構築し、それぞれが目標(クリックスルーレート、変換レートなど)に特化している。
これらのモデルは、個々の視点から複数の目的の長期的な価値を推定することを目的として、アクションとしてのアイテムの位置を個別に決定する。
次に、DFMを用いて目標間の重みを動的に調整し、長期的価値を最大化し、電子商取引シナリオにおける客観的嗜好の時間的ダイナミクスに対処する。
当初、PDAはオフラインログからシミュレーションデータでMOQをトレーニングした。
実験が進むにつれて、実際のユーザインタラクションデータを戦略的に統合し、最終的にシミュレーションデータセットを置き換えて、分散シフトとコールドスタート問題を緩和した。
実世界のオンラインeコマースシステムの実験結果から,MODRL-TAの大幅な改善が示され,我々は,MODRL-TAをeコマース検索プラットフォームに導入することに成功している。
関連論文リスト
- FedReMa: Improving Personalized Federated Learning via Leveraging the Most Relevant Clients [13.98392319567057]
Federated Learning (FL) は分散機械学習のパラダイムであり、分散計算と周期モデル合成によってグローバルに堅牢なモデルを実現する。
広く採用されているにもかかわらず、既存のFLとPFLの作業は、クラス不均衡の問題に包括的に対処していない。
本稿では,適応型クライアント間コラーニング手法を用いて,クラス不均衡に対処できる効率的なPFLアルゴリズムであるFedReMaを提案する。
論文 参考訳(メタデータ) (2024-11-04T05:44:28Z) - MetaTrading: An Immersion-Aware Model Trading Framework for Vehicular Metaverse Services [94.61039892220037]
本稿では,車載メタバースにおける拡張現実(AR)サービスの学習モデルを支援するために,メタバースユーザ(MU)にインセンティブを与える新しい没入型モデルトレーディングフレームワークを提案する。
動的ネットワーク条件とプライバシの懸念を考慮して、マルチエージェントマルコフ決定プロセスとしてMSPの報酬決定を定式化する。
実験により,提案フレームワークは,実AR関連車両データセット上でのARサービスにおいて,オブジェクト検出と分類のための高価値モデルを効果的に提供できることが示されている。
論文 参考訳(メタデータ) (2024-10-25T16:20:46Z) - Multi-Stream Cellular Test-Time Adaptation of Real-Time Models Evolving in Dynamic Environments [53.79708667153109]
スマートオブジェクト、特に自動運転車は、限られたリソースのために重要なローカル計算の課題に直面している。
そこで本研究では,モデルがハエに適応し,動的環境をセルに分割する,新しいマルチストリームセルラーテスト時間適応方式を提案する。
我々は、位置と天候条件に基づいて定義された細胞を横断する自動運転車の文脈で、我々の方法論を検証する。
論文 参考訳(メタデータ) (2024-04-27T15:00:57Z) - Communication-Efficient Multimodal Federated Learning: Joint Modality
and Client Selection [14.261582708240407]
FL(Multimodal Federated Learning)は、FL設定におけるモデルトレーニングを強化することを目的としている。
マルチモーダルFLの鍵となる課題は、特に異種ネットワーク設定において、未適応のままである。
マルチモーダル設定における上記の課題に対処できる新しいFL手法であるmmFedMCを提案する。
論文 参考訳(メタデータ) (2024-01-30T02:16:19Z) - Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - FedDM: Iterative Distribution Matching for Communication-Efficient
Federated Learning [87.08902493524556]
フェデレートラーニング(FL)は近年、学術や産業から注目を集めている。
我々は,複数の局所的代理関数からグローバルなトレーニング目標を構築するためのFedDMを提案する。
そこで本研究では,各クライアントにデータ集合を構築し,元のデータから得られた損失景観を局所的にマッチングする。
論文 参考訳(メタデータ) (2022-07-20T04:55:18Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Relation-aware Meta-learning for Market Segment Demand Prediction with
Limited Records [40.33535461064516]
本稿では,メタラーニングパラダイムを備えたマルチパターン融合ネットワーク(MPFN)を組み込む新しいアルゴリズムRMLDPを提案する。
2つの大規模産業データセットについて広範な実験を行った。
その結果、我々のRMLDPは最先端のベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-08-01T06:02:16Z) - MoTiAC: Multi-Objective Actor-Critics for Real-Time Bidding [47.555870679348416]
そこで本研究では,MoTiACというマルチエクティブ・アクタ・クリティカルスアルゴリズムを提案する。
従来のRLモデルとは異なり、提案されたMoTiACは複雑な入札環境で同時に多目的タスクを達成できる。
論文 参考訳(メタデータ) (2020-02-18T07:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。