論文の概要: Deep Reinforcement Learning for Ranking Utility Tuning in the Ad Recommender System at Pinterest
- arxiv url: http://arxiv.org/abs/2509.05292v1
- Date: Fri, 05 Sep 2025 17:57:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.679816
- Title: Deep Reinforcement Learning for Ranking Utility Tuning in the Ad Recommender System at Pinterest
- Title(参考訳): Pinterestの広告レコメンダシステムにおけるランク付けユーティリティチューニングのための深層強化学習
- Authors: Xiao Yang, Mehdi Ben Ayed, Longyu Zhao, Fan Zhou, Yuchen Shen, Abe Engle, Jinfeng Zhuang, Ling Leng, Jiajing Xu, Charles Rosenberg, Prathibha Deshikachar,
- Abstract要約: 広告推薦システムにおけるランキングユーティリティ機能は、プラットフォーム、広告主、ユーザー間で価値のバランスをとる上で中心的な役割を果たす。
従来の手動チューニングは単純さと解釈性を提供しながら、しばしば準最適結果をもたらす。
個人化されたユーティリティチューニングのための一般的なDeep Reinforcement Learningフレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.816672840498079
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ranking utility function in an ad recommender system, which linearly combines predictions of various business goals, plays a central role in balancing values across the platform, advertisers, and users. Traditional manual tuning, while offering simplicity and interpretability, often yields suboptimal results due to its unprincipled tuning objectives, the vast amount of parameter combinations, and its lack of personalization and adaptability to seasonality. In this work, we propose a general Deep Reinforcement Learning framework for Personalized Utility Tuning (DRL-PUT) to address the challenges of multi-objective optimization within ad recommender systems. Our key contributions include: 1) Formulating the problem as a reinforcement learning task: given the state of an ad request, we predict the optimal hyperparameters to maximize a pre-defined reward. 2) Developing an approach to directly learn an optimal policy model using online serving logs, avoiding the need to estimate a value function, which is inherently challenging due to the high variance and unbalanced distribution of immediate rewards. We evaluated DRL-PUT through an online A/B experiment in Pinterest's ad recommender system. Compared to the baseline manual utility tuning approach, DRL-PUT improved the click-through rate by 9.7% and the long click-through rate by 7.7% on the treated segment. We conducted a detailed ablation study on the impact of different reward definitions and analyzed the personalization aspect of the learned policy model.
- Abstract(参考訳): 広告推薦システムにおけるランキングユーティリティ機能は、様々なビジネス目標の予測を線形に組み合わせ、プラットフォーム、広告主、ユーザー間で価値のバランスをとる上で中心的な役割を果たす。
伝統的な手動チューニングは、単純さと解釈可能性を提供する一方で、未熟なチューニング目的、膨大なパラメータの組み合わせ、そしてパーソナライゼーションの欠如と季節性への適応性のために、しばしば準最適結果をもたらす。
本稿では,広告レコメンデータシステムにおける多目的最適化の課題に対処するために,個人化ユーティリティチューニングのための汎用的な深層強化学習フレームワーク(DRL-PUT)を提案する。
私たちの重要なコントリビューションは以下のとおりです。
1) 課題を強化学習タスクとして定式化する: 広告要求の状態から、最適なハイパーパラメータを予測して、事前に定義された報酬を最大化する。
2)オンラインサービスログを用いた最適政策モデルを直接学習する手法の開発において,価値関数を見積もる必要がなく,即時報酬の高分散と不均衡分布のため,本質的に困難である。
Pinterestの広告レコメンデーションシステムにおけるオンラインA/B実験を通じてDRL-PUTを評価した。
DRL-PUTは、ベースライン手動ユーティリティチューニングアプローチと比較して、クリックスルー率を9.7%改善し、長いクリックスルー率を7.7%改善した。
異なる報酬定義の影響について詳細なアブレーション調査を行い、学習政策モデルのパーソナライズ側面を分析した。
関連論文リスト
- SGPO: Self-Generated Preference Optimization based on Self-Improver [6.528083376369728]
大規模言語モデル(LLM)は、実用的で信頼性の高いデプロイメントのために人間の好みに合わせている必要がある。
SGPO(Self-Generated Preference Optimization)を提案する。
改善者は、ポリシーモデルの直接選好最適化(DPO)のための自己生成選好データに対するポリシーモデルからの応答を洗練する。
AlpacaEval 2.0 と Arena-Hard の実験結果から,提案した SGPO は DPO とベースライン自己改善法を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-07-27T08:55:40Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Learning Fair Ranking Policies via Differentiable Optimization of
Ordered Weighted Averages [55.04219793298687]
本稿では,学習からランクへの学習ループに,効率よく解ける公正ランキングモデルを組み込む方法について述べる。
特に,本論文は,OWA目標の制約された最適化を通じてバックプロパゲーションを行う方法を示す最初のものである。
論文 参考訳(メタデータ) (2024-02-07T20:53:53Z) - Policy Optimization in RLHF: The Impact of Out-of-preference Data [17.126977660436225]
本稿では、DPO(Direct Preference Optimization)とReward-Model-Based Policy Optimization(RMB-PO)の2つの一般的なアライメント手法について検討する。
RMB-PO+とも呼ばれるRMB-POの変種も検討されている。
特に、DPOと比較して、RMB-POはポリシー生成データを使用し、RMB-PO+は新たな好みのないデータを活用する。
論文 参考訳(メタデータ) (2023-12-17T02:14:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。