論文の概要: MDDL: A Framework for Reinforcement Learning-based Position Allocation
in Multi-Channel Feed
- arxiv url: http://arxiv.org/abs/2304.09087v1
- Date: Mon, 17 Apr 2023 07:25:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 14:03:17.144313
- Title: MDDL: A Framework for Reinforcement Learning-based Position Allocation
in Multi-Channel Feed
- Title(参考訳): MDDL:マルチチャネルフィードにおける強化学習に基づく位置アロケーションのためのフレームワーク
- Authors: Xiaowen Shi, Ze Wang, Yuanying Cai, Xiaoxu Wu, Fan Yang, Guogang Liao,
Yongkang Wang, Xingxing Wang, Dong Wang
- Abstract要約: 本稿では,MDDL(Multi-Distribution Data Learning)というフレームワークを提案する。
MDDLには新たな模倣学習信号が組み込まれており、戦略データの過大評価問題を軽減し、ランダムデータに対するRL信号を最大化し、効果的な学習を容易にする。
MDDLはMeituanのフードデリバリープラットフォームに完全にデプロイされており、現在3億人のユーザーにサービスを提供している。
- 参考スコア(独自算出の注目度): 14.8342816935259
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowadays, the mainstream approach in position allocation system is to utilize
a reinforcement learning model to allocate appropriate locations for items in
various channels and then mix them into the feed. There are two types of data
employed to train reinforcement learning (RL) model for position allocation,
named strategy data and random data. Strategy data is collected from the
current online model, it suffers from an imbalanced distribution of
state-action pairs, resulting in severe overestimation problems during
training. On the other hand, random data offers a more uniform distribution of
state-action pairs, but is challenging to obtain in industrial scenarios as it
could negatively impact platform revenue and user experience due to random
exploration. As the two types of data have different distributions, designing
an effective strategy to leverage both types of data to enhance the efficacy of
the RL model training has become a highly challenging problem. In this study,
we propose a framework named Multi-Distribution Data Learning (MDDL) to address
the challenge of effectively utilizing both strategy and random data for
training RL models on mixed multi-distribution data. Specifically, MDDL
incorporates a novel imitation learning signal to mitigate overestimation
problems in strategy data and maximizes the RL signal for random data to
facilitate effective learning. In our experiments, we evaluated the proposed
MDDL framework in a real-world position allocation system and demonstrated its
superior performance compared to the previous baseline. MDDL has been fully
deployed on the Meituan food delivery platform and currently serves over 300
million users.
- Abstract(参考訳): 現在、位置割り当てシステムにおける主流のアプローチは、強化学習モデルを用いて様々なチャンネルの項目の適切な位置を割り当て、それらをフィードに混ぜることである。
位置割り当てのための強化学習(RL)モデルを訓練するために使用されるデータには、名前付き戦略データとランダムデータがある。
戦略データは現在のオンラインモデルから収集され、状態-作用ペアの不均衡な分布に悩まされ、トレーニング中に深刻な過大評価問題を引き起こす。
一方、ランダムデータは、より均一な状態-作用ペアの分布を提供するが、ランダムな探索によるプラットフォーム収益とユーザエクスペリエンスに悪影響を及ぼす可能性があるため、産業シナリオでの獲得は困難である。
2種類のデータには分布が異なるため、RLモデルトレーニングの有効性を高めるために両方のデータを活用する効果的な戦略を設計することは、非常に難しい問題となっている。
本研究では,MDDL (Multi-Distribution Data Learning) というフレームワークを提案し,混合マルチディストリビューションデータに基づくRLモデルの学習に戦略データとランダムデータの両方を効果的に活用することの課題に対処する。
具体的には、MDDLは、戦略データにおける過大評価問題を軽減し、ランダムデータに対するRL信号を最大化し、効果的な学習を容易にするために、新しい模倣学習信号を組み込んでいる。
本実験では,提案するmddlフレームワークを実世界の位置割当システムで評価し,従来のベースラインよりも優れた性能を示した。
MDDLはMeituanのフードデリバリープラットフォームに完全にデプロイされており、現在3億人のユーザーにサービスを提供している。
関連論文リスト
- Leveraging Foundation Models for Multi-modal Federated Learning with Incomplete Modality [41.79433449873368]
我々は、事前学習完了(FedMVP)を用いた新しいマルチモーダル・コントラスト学習法、フェデレーション・マルチモーダル・コントラストVeトレーニングを提案する。
FedMVPは、大規模な事前トレーニングモデルを統合して、フェデレーショントレーニングを強化する。
実世界の2つの画像テキスト分類データセットよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-16T19:18:06Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Bridging Distributionally Robust Learning and Offline RL: An Approach to
Mitigate Distribution Shift and Partial Data Coverage [32.578787778183546]
オフライン強化学習(RL)アルゴリズムは、過去の(オフライン)データを用いて最適な警察を学習する。
オフラインRLの主な課題の1つは、分散シフトである。
分散ロバスト学習(DRL)フレームワークを用いた2つのオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-27T19:19:30Z) - Universal Metric Learning with Parameter-Efficient Transfer Learning [40.85295050164728]
メトリック学習における一般的なプラクティスは、データセット毎に埋め込みモデルをトレーニングし、テストすることである。
このデータセット固有のアプローチは、複数の異種データの分散を含む実世界のシナリオをシミュレートすることができない。
本稿では,複数のデータ分布にまたがる関係を捉えることのできる統一されたメトリックを学習するUniversal Metric Learning(UML)という,新しいメトリック学習パラダイムを導入する。
論文 参考訳(メタデータ) (2023-09-16T10:34:01Z) - Integrating Local Real Data with Global Gradient Prototypes for
Classifier Re-Balancing in Federated Long-Tailed Learning [60.41501515192088]
フェデレートラーニング(FL)は、グローバルモデルを協調的にトレーニングする複数のクライアントを含む、人気のある分散ラーニングパラダイムになっています。
データサンプルは通常、現実世界の長い尾の分布に従っており、分散化された長い尾のデータのFLは、貧弱なグローバルモデルをもたらす。
本研究では、局所的な実データとグローバルな勾配のプロトタイプを統合し、局所的なバランスの取れたデータセットを形成する。
論文 参考訳(メタデータ) (2023-01-25T03:18:10Z) - FedDRL: Deep Reinforcement Learning-based Adaptive Aggregation for
Non-IID Data in Federated Learning [4.02923738318937]
異なるエッジデバイス(クライアント)にまたがるローカルデータの不均一な分散は、フェデレート学習における遅いモデルトレーニングと精度の低下をもたらす。
この研究は、実世界のデータセット、すなわちクラスタスキューで発生する新しい非IID型を導入している。
我々は,各クライアントのインパクト要因を適応的に決定するために,深層強化学習を用いた新しいFLモデルであるFedDRLを提案する。
論文 参考訳(メタデータ) (2022-08-04T04:24:16Z) - FedDM: Iterative Distribution Matching for Communication-Efficient
Federated Learning [87.08902493524556]
フェデレートラーニング(FL)は近年、学術や産業から注目を集めている。
我々は,複数の局所的代理関数からグローバルなトレーニング目標を構築するためのFedDMを提案する。
そこで本研究では,各クライアントにデータ集合を構築し,元のデータから得られた損失景観を局所的にマッチングする。
論文 参考訳(メタデータ) (2022-07-20T04:55:18Z) - An Empirical Study on Distribution Shift Robustness From the Perspective
of Pre-Training and Data Augmentation [91.62129090006745]
本稿では,事前学習とデータ拡張の観点から分布シフト問題を考察する。
我々は,事前学習とデータ拡張に焦点を当てた,最初の総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2022-05-25T13:04:53Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Federated Visual Classification with Real-World Data Distribution [9.564468846277366]
我々は,FedAvg(Federated Averaging)アルゴリズムのベンチマークを用いて,実世界のデータ分布が分散学習に与える影響を特徴付ける。
種別とランドマーク分類のための2つの新しい大規模データセットを導入し,ユーザ毎のデータ分割を現実的に行う。
また、2つの新しいアルゴリズム(FedVC、FedIR)も開発しています。
論文 参考訳(メタデータ) (2020-03-18T07:55:49Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。