論文の概要: Learning List-wise Representation in Reinforcement Learning for Ads
Allocation with Multiple Auxiliary Tasks
- arxiv url: http://arxiv.org/abs/2204.00888v1
- Date: Sat, 2 Apr 2022 15:53:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 16:06:41.549085
- Title: Learning List-wise Representation in Reinforcement Learning for Ads
Allocation with Multiple Auxiliary Tasks
- Title(参考訳): 複数の補助課題を伴う広告アロケーションの強化学習におけるリストワイズ表現の学習
- Authors: Guogang Liao, Ze Wang, Xiaowen Shi, Xiaoxu Wu, Chuheng Zhang, Yongkang
Wang, Xingxing Wang, Dong Wang
- Abstract要約: 本稿では,Meituanフードデリバリープラットフォーム上でタスク固有の信号を活用することで,より良い表現を学習するための新しいアルゴリズムを提案する。
具体的には,再構築,予測,コントラスト学習に基づく3種類の補助課題を提案する。
- 参考スコア(独自算出の注目度): 14.9065245548275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the recent prevalence of reinforcement learning (RL), there have been
tremendous interests in utilizing RL for ads allocation in recommendation
platforms (e.g., e-commerce and news feed sites). For better performance,
recent RL-based ads allocation agent makes decisions based on representations
of list-wise item arrangement. This results in a high-dimensional state-action
space, which makes it difficult to learn an efficient and generalizable
list-wise representation. To address this problem, we propose a novel algorithm
to learn a better representation by leveraging task-specific signals on Meituan
food delivery platform. Specifically, we propose three different types of
auxiliary tasks that are based on reconstruction, prediction, and contrastive
learning respectively. We conduct extensive offline experiments on the
effectiveness of these auxiliary tasks and test our method on real-world food
delivery platform. The experimental results show that our method can learn
better list-wise representations and achieve higher revenue for the platform.
- Abstract(参考訳): 近年の強化学習(RL)の普及に伴い、レコメンデーションプラットフォーム(eコマースやニュースフィードサイトなど)における広告アロケーションにRLを活用することへの大きな関心が高まっている。
パフォーマンス向上のために、最近のRLベースの広告アロケーションエージェントは、リストワイドアイテムアレンジメントの表現に基づいて決定を行う。
この結果、高次元の状態作用空間となり、効率的で一般化可能なリストワイズ表現を学ぶのが難しくなる。
そこで本研究では,meituan food delivery platformにおけるタスク固有信号を利用して,より優れた表現を学習するための新しいアルゴリズムを提案する。
具体的には,再構築,予測,コントラスト学習に基づく3種類の補助課題を提案する。
我々は,これらの補助タスクの有効性に関する広範囲なオフライン実験を行い,本手法を実世界の食品配送プラットフォーム上でテストする。
実験の結果,提案手法はリスト毎の表現を学習し,プラットフォームに対して高い収益を得ることができた。
関連論文リスト
- Offline Multitask Representation Learning for Reinforcement Learning [86.26066704016056]
強化学習(RL)におけるオフラインマルチタスク表現学習の研究
オフラインマルチタスク表現学習のための新しいアルゴリズム MORL を提案する。
我々の理論的結果は、ローランクモデルの表現を直接学習するのではなく、上流のオフラインタスクから学習した表現を使用することの利点を実証する。
論文 参考訳(メタデータ) (2024-03-18T08:50:30Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - e-CLIP: Large-Scale Vision-Language Representation Learning in
E-commerce [9.46186546774799]
本研究では,未ラベルの製品テキストや画像を用いて,言語モデルと視覚モデルとを整合させるコントラスト学習フレームワークを提案する。
我々は、大規模表現学習モデルを訓練し、ドメイン固有の課題に対処するソリューションを共有するために使用したテクニックを提示する。
論文 参考訳(メタデータ) (2022-07-01T05:16:47Z) - Contrastive Learning as Goal-Conditioned Reinforcement Learning [147.28638631734486]
強化学習(RL)では,優れた表現が与えられると,課題の解決が容易になる。
ディープRLはこのような優れた表現を自動的に取得する必要があるが、事前の作業では、エンドツーエンドの方法での学習表現が不安定であることが多い。
比較的)表現学習法は,RLアルゴリズムとして自己にキャスト可能であることを示す。
論文 参考訳(メタデータ) (2022-06-15T14:34:15Z) - Towards Universal Sequence Representation Learning for Recommender
Systems [98.02154164251846]
我々はUniSRecという新しいユニバーサルシーケンス表現学習手法を提案する。
提案手法は、項目の関連記述テキストを用いて、異なる推薦シナリオ間で転送可能な表現を学習する。
我々のアプローチは、パラメータ効率のよい方法で、新しいレコメンデーションドメインやプラットフォームに効果的に移行できます。
論文 参考訳(メタデータ) (2022-06-13T07:21:56Z) - Contrastive Learning from Demonstrations [0.0]
これらの表現は、ピック・アンド・プレイスを含むいくつかのロボット作業の模倣に適用可能であることを示す。
我々は、タスク関連情報を強化するためにコントラスト学習を適用することで、最近提案された自己教師付き学習アルゴリズムを最適化する。
論文 参考訳(メタデータ) (2022-01-30T13:36:07Z) - Learning Temporally-Consistent Representations for Data-Efficient
Reinforcement Learning [3.308743964406687]
$k$-Step Latent (KSL) は表現の時間的一貫性を強制する表現学習法である。
KSLはトレーニング中に見つからない新しいタスクを一般化するエンコーダを生成する。
論文 参考訳(メタデータ) (2021-10-11T00:16:43Z) - Techniques Toward Optimizing Viewability in RTB Ad Campaigns Using
Reinforcement Learning [0.0]
強化学習(Reinforcement Learning, RL)は、環境との相互作用を通じて意思決定エージェントを訓練する効果的な手法である。
デジタル広告において、リアルタイム入札(Real-time bidding、RTB)は、リアルタイムオークションを通じて広告インベントリを割り当てる一般的な方法である。
論文 参考訳(メタデータ) (2021-05-21T21:56:12Z) - Reinforcement Learning with Prototypical Representations [114.35801511501639]
Proto-RLは、プロトタイプ表現を通じて表現学習と探索を結び付ける自己監督型フレームワークである。
これらのプロトタイプは、エージェントの探索経験の要約と同時に、観察を表す基盤としても機能する。
これにより、困難な連続制御タスクのセットで最新の下流ポリシー学習が可能になります。
論文 参考訳(メタデータ) (2021-02-22T18:56:34Z) - Self-supervised Learning for Large-scale Item Recommendations [18.19202958502061]
大規模なレコメンデータモデルは、巨大なカタログから最も関連性の高いアイテムを見つけ出す。
コーパスには何百万から数十億ものアイテムがあり、ユーザーはごく少数のユーザーに対してフィードバックを提供する傾向にある。
大規模項目推薦のためのマルチタスク自己教師型学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-25T06:21:43Z) - Privileged Information Dropout in Reinforcement Learning [56.82218103971113]
トレーニング中に特権情報を使用することで、機械学習システムのサンプル効率とパフォーマンスを向上させることができる。
本研究では,価値に基づく強化学習アルゴリズムとポリシーに基づく強化学習アルゴリズムに等しく適用可能なプライヴィレグ情報ドロップアウト(pid)について検討する。
論文 参考訳(メタデータ) (2020-05-19T05:32:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。