論文の概要: Cooperative Multi-Agent Deep Reinforcement Learning in Content Ranking Optimization
- arxiv url: http://arxiv.org/abs/2408.04251v1
- Date: Thu, 8 Aug 2024 06:36:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 16:29:12.424261
- Title: Cooperative Multi-Agent Deep Reinforcement Learning in Content Ranking Optimization
- Title(参考訳): コンテンツランキング最適化における協調的多エージェント深層強化学習
- Authors: Zhou Qin, Kai Yuan, Pratik Lahiri, Wenyang Liu,
- Abstract要約: 1) 位置レベルの最適化から全体のページレベルの最適化へ移行し、総合的なランク付けを実現するため、2) 即時報酬ではなく累積報酬のために強化学習を適用することで、ページ全体のランク付けを協調的に最適化する強化学習手法を提案する。
実験により、MADDPGは公共のムジョコ環境において25億のアクションスペースにスケールし、主要な電子商取引会社によって設定されたオフラインのCROデータにおいて、ディープ・バンディット・モデリングを25.7%上回っていることが示された。
- 参考スコア(独自算出の注目度): 3.8731520246920064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In a typical e-commerce setting, Content Ranking Optimization (CRO) mechanisms are employed to surface content on the search page to fulfill customers' shopping missions. CRO commonly utilizes models such as contextual deep bandits model to independently rank content at different positions, e.g., one optimizer dedicated to organic search results and another to sponsored results. However, this regional optimization approach does not necessarily translate to whole page optimization, e.g., maximizing revenue at the top of the page may inadvertently diminish the revenue of lower positions. In this paper, we propose a reinforcement learning based method for whole page ranking to jointly optimize across all positions by: 1) shifting from position level optimization to whole page level optimization to achieve an overall optimized ranking; 2) applying reinforcement learning to optimize for the cumulative rewards instead of the instant reward. We formulate page level CRO as a cooperative Multi-agent Markov Decision Process , and address it with the novel Multi-Agent Deep Deterministic Policy Gradient (MADDPG) model. MADDPG supports a flexible and scalable joint optimization framework by adopting a "centralized training and decentralized execution" approach. Extensive experiments demonstrate that MADDPG scales to a 2.5 billion action space in the public Mujoco environment, and outperforms the deep bandits modeling by 25.7% on the offline CRO data set from a leading e-commerce company. We foresee that this novel multi-agent optimization is applicable to similar joint optimization problems in the field of information retrieval.
- Abstract(参考訳): 典型的なeコマース環境では、検索ページにコンテンツを表示するためにコンテンツランキング最適化(CRO)機構が使用される。
CROは、文脈的なディープブレイディットモデルのようなモデルを用いて、異なる位置のコンテンツを独立してランク付けする。
しかし、この地域最適化アプローチは、ページ全体の最適化に必ずしも変換されない、例えば、ページの上部で収益を最大化することは、必然的に低いポジションの収益を減少させる可能性がある。
本稿では,全ページランク付けのための強化学習に基づく手法を提案する。
1) 位置レベルの最適化からページレベルの最適化へ移行し、全体的な最適化ランキングを達成する。
2) 即時報酬の代わりに累積報酬を最適化するために強化学習を適用する。
我々は、ページレベルCROを協調的マルチエージェントマルコフ決定プロセスとして定式化し、新しいマルチエージェント・ディープ決定性ポリシー勾配(MADDPG)モデルで対処する。
MADDPGは、"分散トレーニングと分散実行"アプローチを採用することで、フレキシブルでスケーラブルな共同最適化フレームワークをサポートする。
大規模な実験により、MADDPGは公共のムジョコ環境において25億のアクションスペースにスケールし、主要な電子商取引会社によって設定されたオフラインのCROデータセットにおいて、ディープ・バンディット・モデリングを25.7%上回った。
この新たなマルチエージェント最適化は、情報検索分野における同様の共同最適化問題に適用可能であると予測する。
関連論文リスト
- ARCO:Adaptive Multi-Agent Reinforcement Learning-Based Hardware/Software Co-Optimization Compiler for Improved Performance in DNN Accelerator Design [4.825037489691159]
ARCOは適応型マルチエージェント強化学習(MARL)ベースの協調最適化コンパイルフレームワークである。
このフレームワークには、MARL内に3つのアクター批判エージェントが含まれており、それぞれがコンパイル/最適化の異なる側面に特化している。
論文 参考訳(メタデータ) (2024-07-11T05:22:04Z) - Multi-Scenario Combination Based on Multi-Agent Reinforcement Learning to Optimize the Advertising Recommendation System [38.501423778989704]
本稿では,異なるシナリオを共通の目的の下で整列するマルチエージェント・リカレント決定性ポリシー勾配(MARDPG)アルゴリズムを提案する。
その結果,クリックスルー率 (CTR) , コンバージョン率, 総売上など, 指標の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-07-03T02:33:20Z) - MADA: Meta-Adaptive Optimizers through hyper-gradient Descent [73.1383658672682]
メタ適応(MADA)は、複数の既知の収束を一般化し、トレーニング中に最も適した収束を動的に学習できる統合フレームワークである。
私たちは、MADAを視覚や言語タスクに関する他の人気と経験的に比較し、MADAがAdamや他の人気を一貫して上回っていることに気付きました。
AVGradは最大演算子を平均演算子に置き換えたもので、高次最適化に適している。
論文 参考訳(メタデータ) (2024-01-17T00:16:46Z) - Adaptive Neural Ranking Framework: Toward Maximized Business Goal for
Cascade Ranking Systems [33.46891569350896]
カスケードランキングは、オンライン広告とレコメンデーションシステムにおける大規模なトップk選択問題に広く使われている。
それまでの学習からランクへの取り組みは、モデルに完全な順序やトップクオーダを学習させることに重点を置いていた。
我々はこの手法をアダプティブ・ニューラルランキング・フレームワーク (Adaptive Neural Ranking Framework, ARF) と命名する。
論文 参考訳(メタデータ) (2023-10-16T14:43:02Z) - Learning Regions of Interest for Bayesian Optimization with Adaptive
Level-Set Estimation [84.0621253654014]
本稿では,高信頼領域を適応的にフィルタするBALLETというフレームワークを提案する。
理論的には、BALLETは探索空間を効率的に縮小することができ、標準BOよりも厳密な後悔を示すことができる。
論文 参考訳(メタデータ) (2023-07-25T09:45:47Z) - Bidirectional Looking with A Novel Double Exponential Moving Average to
Adaptive and Non-adaptive Momentum Optimizers [109.52244418498974]
我々は,新しいtextscAdmeta(textbfADouble指数textbfMov averagtextbfE textbfAdaptiveおよび非適応運動量)フレームワークを提案する。
我々は、textscAdmetaR と textscAdmetaS の2つの実装を提供し、前者は RAdam を、後者は SGDM をベースとしています。
論文 参考訳(メタデータ) (2023-07-02T18:16:06Z) - Accelerated Federated Learning with Decoupled Adaptive Optimization [53.230515878096426]
フェデレートドラーニング(FL)フレームワークは、クライアント上のトレーニングデータのプライバシを維持しながら、共有モデルを協調的に学習することを可能にする。
近年,SGDM,Adam,AdaGradなどの集中型適応最適化手法をフェデレートした設定に一般化するためのイテレーションが多数実施されている。
本研究は、常微分方程式(ODE)のダイナミクスの観点から、FLの新しい適応最適化手法を開発することを目的としている。
論文 参考訳(メタデータ) (2022-07-14T22:46:43Z) - Towards Global Optimality in Cooperative MARL with the Transformation
And Distillation Framework [26.612749327414335]
分散実行は協調型マルチエージェント強化学習(MARL)における中核的要求である
本稿では,マルチエージェントポリシー勾配法と値分解法という,分散ポリシを用いた2つの一般的なアルゴリズムのクラスを理論的に解析する。
我々は,TAD-PPO が有限マルチエージェント MDP において最適政策学習を理論的に行うことができることを示す。
論文 参考訳(メタデータ) (2022-07-12T06:59:13Z) - Learning-To-Ensemble by Contextual Rank Aggregation in E-Commerce [8.067201256886733]
本稿では,アンサンブルモデルを文脈的ランクアグリゲータに置き換えた新しいラーニング・トゥ・エンサンブル・フレームワークRAEGOを提案する。
RA-EGOは当社のオンラインシステムにデプロイされ、収益を大幅に改善しました。
論文 参考訳(メタデータ) (2021-07-19T03:24:06Z) - Learning Space Partitions for Path Planning [54.475949279050596]
PlaLaMは2次元ナビゲーションタスクにおける既存の経路計画手法よりも優れており、特に難解な局所最適化の存在下では優れている。
これらは高マルチモーダルな実世界のタスクに移行し、コンパイラフェーズでは最大245%、分子設計では最大0.4の強いベースラインを0-1スケールで上回ります。
論文 参考訳(メタデータ) (2021-06-19T18:06:11Z) - Domain Adaptive Person Re-Identification via Coupling Optimization [58.567492812339566]
ドメイン適応型人物再識別(ReID)は、ドメインのギャップとターゲットシナリオに対するアノテーションの不足のために困難である。
本稿では,ドメイン不変写像 (DIM) 法とグローバル局所距離最適化 (GLO) を含む結合最適化手法を提案する。
GLOはターゲットドメインの教師なし設定でReIDモデルをトレーニングするために設計されている。
論文 参考訳(メタデータ) (2020-11-06T14:01:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。