Fugu-MT 論文翻訳(概要): MODRL-TA:A Multi-Objective Deep Reinforcement Learning Framework for Traffic Allocation in E-Commerce Search

論文の概要: MODRL-TA:A Multi-Objective Deep Reinforcement Learning Framework for Traffic Allocation in E-Commerce Search

arxiv url: http://arxiv.org/abs/2407.15476v1
Date: Mon, 22 Jul 2024 08:40:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-23 15:40:55.034133
Title: MODRL-TA:A Multi-Objective Deep Reinforcement Learning Framework for Traffic Allocation in E-Commerce Search
Title（参考訳）: MODRL-TA:Eコマース検索における交通割当のための多目的深層強化学習フレームワーク
Authors: Peng Cheng, Huimu Wang, Jinyuan Zhao, Yihao Wang, Enqiang Xu, Yu Zhao, Zhuojian Xiao, Songlin Wang, Guoyu Tang, Lin Liu, Sulong Xu,
Abstract要約: 本稿では、多目的Q-ラーニング(MOQ)と、クロスエントロピー法(CEM)に基づく決定融合アルゴリズム(DFM)と、プログレッシブデータ拡張システム(PDA)からなる多目的深層強化学習フレームワークを提案する。実世界のオンラインeコマースシステムの実験は、MODRL-TAの大幅な改善を実証している。
参考スコア（独自算出の注目度）: 13.893431289065997
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Traffic allocation is a process of redistributing natural traffic to products by adjusting their positions in the post-search phase, aimed at effectively fostering merchant growth, precisely meeting customer demands, and ensuring the maximization of interests across various parties within e-commerce platforms. Existing methods based on learning to rank neglect the long-term value of traffic allocation, whereas approaches of reinforcement learning suffer from balancing multiple objectives and the difficulties of cold starts within realworld data environments. To address the aforementioned issues, this paper propose a multi-objective deep reinforcement learning framework consisting of multi-objective Q-learning (MOQ), a decision fusion algorithm (DFM) based on the cross-entropy method(CEM), and a progressive data augmentation system(PDA). Specifically. MOQ constructs ensemble RL models, each dedicated to an objective, such as click-through rate, conversion rate, etc. These models individually determine the position of items as actions, aiming to estimate the long-term value of multiple objectives from an individual perspective. Then we employ DFM to dynamically adjust weights among objectives to maximize long-term value, addressing temporal dynamics in objective preferences in e-commerce scenarios. Initially, PDA trained MOQ with simulated data from offline logs. As experiments progressed, it strategically integrated real user interaction data, ultimately replacing the simulated dataset to alleviate distributional shifts and the cold start problem. Experimental results on real-world online e-commerce systems demonstrate the significant improvements of MODRL-TA, and we have successfully deployed MODRL-TA on an e-commerce search platform.
Abstract（参考訳）: 交通割当とは、検索後の段階において、商店の成長を効果的に促進し、顧客の要求を正確に満たし、電子商取引プラットフォーム内の様々な当事者間の利益の最大化を確保することを目的として、自然交通を製品に再分配するプロセスである。既存の学習手法では、交通割当の長期的価値を無視する一方で、強化学習のアプローチでは複数の目標のバランスがとられ、現実のデータ環境内では寒さの難しさが始まります。上記の課題に対処するために,多目的Q-ラーニング(MOQ)と,クロスエントロピー法(CEM)に基づく決定融合アルゴリズム(DFM)と,プログレッシブデータ拡張システム(PDA)からなる多目的深層強化学習フレームワークを提案する。特に。 MOQはエンサンブルRLモデルを構築し、それぞれが目標(クリックスルーレート、変換レートなど)に特化している。これらのモデルは、個々の視点から複数の目的の長期的な価値を推定することを目的として、アクションとしてのアイテムの位置を個別に決定する。次に、DFMを用いて目標間の重みを動的に調整し、長期的価値を最大化し、電子商取引シナリオにおける客観的嗜好の時間的ダイナミクスに対処する。当初、PDAはオフラインログからシミュレーションデータでMOQをトレーニングした。実験が進むにつれて、実際のユーザインタラクションデータを戦略的に統合し、最終的にシミュレーションデータセットを置き換えて、分散シフトとコールドスタート問題を緩和した。実世界のオンラインeコマースシステムの実験結果から,MODRL-TAの大幅な改善が示され,我々は,MODRL-TAをeコマース検索プラットフォームに導入することに成功している。

関連論文リスト

TaoSearchEmb: A Multi-Objective Reinforcement Learning Framework for Dense Retrieval in Taobao Search [11.893855231479717]
Retrieval-GRPOは強化学習に基づく高密度検索フレームワークである。中国最大のeコマースプラットフォームに配備されている。
論文参考訳（メタデータ） (2025-11-17T20:16:52Z)
Communication-Efficient Module-Wise Federated Learning for Grasp Pose Detection in Cluttered Environments [10.63791848873399]
本稿では,Graspのポーズ検出のためのモジュールワイド・フェデレート・ラーニング(FL)フレームワークを提案する。 FLはプライバシ保護ソリューションを提供するが、そのGPDへの応用は、大規模なモデルの通信オーバーヘッドによって妨げられている。本研究は、分散化方式で、堅牢で一般化されたGPDモデルを訓練するための通信効率のよいフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-08T10:40:49Z)
Not All Clients Are Equal: Collaborative Model Personalization on Heterogeneous Multi-Modal Clients [59.52341877720199]
計算コストを伴わずに異種アーキテクチャ間の知識共有を可能にするFedMosaicを提案する。実世界のタスクの多様性を模倣するために,40の異なるタスクにまたがるマルチモーダルPFLベンチマークを提案する。実証研究は、FedMosaicが最先端のPFL法より優れていることを示している。
論文参考訳（メタデータ） (2025-05-20T09:17:07Z)
MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。 MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文参考訳（メタデータ） (2025-05-12T17:35:43Z)
World Model-Based Learning for Long-Term Age of Information Minimization in Vehicular Networks [53.98633183204453]
本稿では,車載ネットワークにおけるパケット完全性認識情報(CAoI)の年齢を最小化するために,新しい世界モデルに基づく学習フレームワークを提案する。 mmWave V2X環境の動的モデルを共同で学習し、リンクスケジューリングの方法を学ぶための軌跡を想像するために使用する世界モデルフレームワークを提案する。特に、長期的な政策は環境相互作用の代わりに、異なる想像軌道で学習される。
論文参考訳（メタデータ） (2025-05-03T06:23:18Z)
CSMF: Cascaded Selective Mask Fine-Tuning for Multi-Objective Embedding-Based Retrieval [17.73933834390597]
本稿では,多目的ESRにおける検索効率とサービス性能を両立させる手法を提案する。 Cascaded Selective Mask Fine-Tuning (CSMF)フレームワークは、モデルパラメータを選択的にマスクし、各目的に対して独立した学習空間を解放する。
論文参考訳（メタデータ） (2025-04-17T13:10:56Z)
Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [79.2162092822111]
我々は,一連のナビゲーションタスクにおいて,強化学習(RL)と制御に基づく手法を体系的に評価する。我々は、JEPA(Joint Embedding Predictive Architecture)を使用して、潜在ダイナミクスモデルを使用し、それを計画に使用します。その結果,モデルベースプランニングではレイアウトが不明瞭になるのに対して,モデルフリーのRLは高品質なデータから恩恵を受けることがわかった。
論文参考訳（メタデータ） (2025-02-20T18:39:41Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
FedReMa: Improving Personalized Federated Learning via Leveraging the Most Relevant Clients [13.98392319567057]
Federated Learning (FL) は分散機械学習のパラダイムであり、分散計算と周期モデル合成によってグローバルに堅牢なモデルを実現する。広く採用されているにもかかわらず、既存のFLとPFLの作業は、クラス不均衡の問題に包括的に対処していない。本稿では,適応型クライアント間コラーニング手法を用いて,クラス不均衡に対処できる効率的なPFLアルゴリズムであるFedReMaを提案する。
論文参考訳（メタデータ） (2024-11-04T05:44:28Z)
MetaTrading: An Immersion-Aware Model Trading Framework for Vehicular Metaverse Services [94.61039892220037]
本稿では,車載メタバースにおける拡張現実(AR)サービスの学習モデルを支援するために,メタバースユーザ(MU)にインセンティブを与える新しい没入型モデルトレーディングフレームワークを提案する。動的ネットワーク条件とプライバシの懸念を考慮して、マルチエージェントマルコフ決定プロセスとしてMSPの報酬決定を定式化する。実験により,提案フレームワークは,実AR関連車両データセット上でのARサービスにおいて,オブジェクト検出と分類のための高価値モデルを効果的に提供できることが示されている。
論文参考訳（メタデータ） (2024-10-25T16:20:46Z)
Federated Learning with Dynamic Client Arrival and Departure: Convergence and Rapid Adaptation via Initial Model Construction [24.71144869427636]
ほとんどのフェデレートされた学習アプローチは、固定されたクライアントセットを前提とします。現実のシナリオでは、クライアントが特定のタスクに対するニーズや関心に基づいてシステムに参加したり、去ったりすることが多い。本稿では,クライアントがシステムに参加・離脱するたびに,新しいクライアントセットへの迅速な適応を可能にするアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-08T03:22:14Z)
Multi-Stream Cellular Test-Time Adaptation of Real-Time Models Evolving in Dynamic Environments [53.79708667153109]
スマートオブジェクト、特に自動運転車は、限られたリソースのために重要なローカル計算の課題に直面している。そこで本研究では,モデルがハエに適応し,動的環境をセルに分割する,新しいマルチストリームセルラーテスト時間適応方式を提案する。我々は、位置と天候条件に基づいて定義された細胞を横断する自動運転車の文脈で、我々の方法論を検証する。
論文参考訳（メタデータ） (2024-04-27T15:00:57Z)
Communication-Efficient Multimodal Federated Learning: Joint Modality and Client Selection [14.261582708240407]
FL(Multimodal Federated Learning)は、FL設定におけるモデルトレーニングを強化することを目的としている。マルチモーダルFLの鍵となる課題は、特に異種ネットワーク設定において、未適応のままである。マルチモーダル設定における上記の課題に対処できる新しいFL手法であるmmFedMCを提案する。
論文参考訳（メタデータ） (2024-01-30T02:16:19Z)
Data-Efficient Task Generalization via Probabilistic Model-based Meta Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文参考訳（メタデータ） (2023-11-13T18:51:57Z)
FedDM: Iterative Distribution Matching for Communication-Efficient Federated Learning [87.08902493524556]
フェデレートラーニング(FL)は近年、学術や産業から注目を集めている。我々は,複数の局所的代理関数からグローバルなトレーニング目標を構築するためのFedDMを提案する。そこで本研究では,各クライアントにデータ集合を構築し,元のデータから得られた損失景観を局所的にマッチングする。
論文参考訳（メタデータ） (2022-07-20T04:55:18Z)
Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文参考訳（メタデータ） (2022-06-17T15:40:45Z)
Learning to Continuously Optimize Wireless Resource in a Dynamic Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文参考訳（メタデータ） (2021-05-03T07:23:39Z)
Relation-aware Meta-learning for Market Segment Demand Prediction with Limited Records [40.33535461064516]
本稿では,メタラーニングパラダイムを備えたマルチパターン融合ネットワーク(MPFN)を組み込む新しいアルゴリズムRMLDPを提案する。 2つの大規模産業データセットについて広範な実験を行った。その結果、我々のRMLDPは最先端のベースラインよりも優れています。
論文参考訳（メタデータ） (2020-08-01T06:02:16Z)
MoTiAC: Multi-Objective Actor-Critics for Real-Time Bidding [47.555870679348416]
そこで本研究では,MoTiACというマルチエクティブ・アクタ・クリティカルスアルゴリズムを提案する。従来のRLモデルとは異なり、提案されたMoTiACは複雑な入札環境で同時に多目的タスクを達成できる。
論文参考訳（メタデータ） (2020-02-18T07:16:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。