Fugu-MT 論文翻訳(概要): Ad-load Balancing via Off-policy Learning in a Content Marketplace

論文の概要: Ad-load Balancing via Off-policy Learning in a Content Marketplace

arxiv url: http://arxiv.org/abs/2309.11518v2
Date: Tue, 19 Dec 2023 07:40:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-20 22:59:24.118966
Title: Ad-load Balancing via Off-policy Learning in a Content Marketplace
Title（参考訳）: コンテンツ市場におけるオフポリシー学習による広告ロードバランシング
Authors: Hitesh Sagtani, Madan Jhawar, Rishabh Mehrotra, Olivier Jeunen
Abstract要約: 広告ロードバランシングは、オンライン広告システム、特にソーシャルメディアプラットフォームにおける重要な課題である。従来のアドロードバランシングのアプローチは静的アロケーションポリシに依存しており、ユーザの好みやコンテキスト要因の変更に適応できない。本稿では、ログ化された盗聴フィードバックから、政治外の学習と評価を活用するアプローチを提案する。
参考スコア（独自算出の注目度）: 9.783697404304025
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Ad-load balancing is a critical challenge in online advertising systems, particularly in the context of social media platforms, where the goal is to maximize user engagement and revenue while maintaining a satisfactory user experience. This requires the optimization of conflicting objectives, such as user satisfaction and ads revenue. Traditional approaches to ad-load balancing rely on static allocation policies, which fail to adapt to changing user preferences and contextual factors. In this paper, we present an approach that leverages off-policy learning and evaluation from logged bandit feedback. We start by presenting a motivating analysis of the ad-load balancing problem, highlighting the conflicting objectives between user satisfaction and ads revenue. We emphasize the nuances that arise due to user heterogeneity and the dependence on the user's position within a session. Based on this analysis, we define the problem as determining the optimal ad-load for a particular feed fetch. To tackle this problem, we propose an off-policy learning framework that leverages unbiased estimators such as Inverse Propensity Scoring (IPS) and Doubly Robust (DR) to learn and estimate the policy values using offline collected stochastic data. We present insights from online A/B experiments deployed at scale across over 80 million users generating over 200 million sessions, where we find statistically significant improvements in both user satisfaction metrics and ads revenue for the platform.
Abstract（参考訳）: 広告ロードバランシングは、オンライン広告システム、特にソーシャルメディアプラットフォームにおいて、満足のいくユーザーエクスペリエンスを維持しつつ、ユーザのエンゲージメントと収益を最大化することが目的である。これはユーザーの満足度や広告収入といった相反する目的の最適化を必要とする。従来のアドロードバランシングアプローチは静的アロケーションポリシに依存しており、ユーザの好みやコンテキスト要因の変更に適応できない。本稿では,ログ付きバンディットフィードバックによるオフポリシー学習と評価を活用したアプローチを提案する。まず,広告負荷分散問題に対する動機づけのある分析を行い,ユーザの満足度と広告収入の相反する目標を強調する。我々は,ユーザの不均一性とセッション内のユーザ位置への依存に起因するニュアンスを強調した。この分析に基づいて、この問題を特定のフィードフェッチに対して最適な広告負荷を決定するものとして定義する。そこで本研究では,ips (inverse propensity scoring) やdr (doubly robust) といった偏りのない推定値を用いて,オフラインで収集した確率データを用いて,政策値の学習と推定を行うオフポリシー学習フレームワークを提案する。 2億以上のセッションを生成する8千万以上のユーザを対象に,大規模にデプロイされたオンラインa/b実験から得た知見を紹介する。

関連論文リスト

DOLCE: Decomposing Off-Policy Evaluation/Learning into Lagged and Current Effects [0.0]
オフ政治評価(OPE)とオフ政治学習(OPL)は、歴史的データを利用して対象の政策を評価し最適化する。複数の時間点からの文脈情報を利用して、報酬をラグと現在の効果に分解する新しい推定器であるラグとカレントエフェクトに非政治評価/学習を分解するDOLCEを提案する。実験の結果,DOLCE は OPE と OPL の大幅な改善を実現していることが明らかとなった。
論文参考訳（メタデータ） (2025-05-02T02:32:28Z)
Large Language Model driven Policy Exploration for Recommender Systems [50.70228564385797]
静的ユーザデータに基づいてトレーニングされたオフラインRLポリシは、動的オンライン環境にデプロイされた場合、分散シフトに対して脆弱である。オンラインRLベースのRSも、トレーニングされていないポリシーや不安定なポリシーにユーザをさらけ出すリスクがあるため、運用デプロイメントの課題に直面している。大規模言語モデル(LLM)は、ユーザー目標と事前学習ポリシーをオフラインで模倣する有望なソリューションを提供する。 LLMから抽出したユーザの嗜好を利用した対話型学習ポリシー(iALP)を提案する。
論文参考訳（メタデータ） (2025-01-23T16:37:44Z)
Unveiling User Satisfaction and Creator Productivity Trade-Offs in Recommendation Platforms [68.51708490104687]
調査力の低い純粋に関連性の高い政策は、短期的ユーザの満足度を高めるが、コンテンツプールの長期的豊かさを損なうことを示す。調査の結果,プラットフォーム上でのユーザの即時満足度と全体のコンテンツ生産との間には,根本的なトレードオフがあることが判明した。
論文参考訳（メタデータ） (2024-10-31T07:19:22Z)
MetaTrading: An Immersion-Aware Model Trading Framework for Vehicular Metaverse Services [94.61039892220037]
我々は、フェデレーション学習(FL)によるプライバシーを確保しつつ、サービスのデータ提供を容易にする没入型モデルトレーディングフレームワークを提案する。我々は,資源制約下での高価値モデルに貢献するために,メタバースユーザ(MU)にインセンティブを与えるインセンティブ機構を設計する。我々は、MUやその他のMSPに関するプライベート情報にアクセスすることなく、深層強化学習に基づく完全に分散された動的報酬アルゴリズムを開発する。
論文参考訳（メタデータ） (2024-10-25T16:20:46Z)
Algorithmic Content Selection and the Impact of User Disengagement [19.14804091327051]
デジタルサービスはコンテンツ選択において根本的なトレードオフに直面している。ユーザーエンゲージメントを維持するという長期的なメリットに対して、ハイリワードコンテンツから得た即時収益をバランスさせなければならない。
論文参考訳（メタデータ） (2024-10-17T00:43:06Z)
MisinfoEval: Generative AI in the Era of "Alternative Facts" [50.069577397751175]
本稿では,大規模言語モデル(LLM)に基づく誤情報介入の生成と評価を行うフレームワークを提案する。本研究では,(1)誤情報介入の効果を測定するための模擬ソーシャルメディア環境の実験,(2)ユーザの人口動態や信念に合わせたパーソナライズされた説明を用いた第2の実験について述べる。以上の結果から,LSMによる介入はユーザの行動の修正に極めて有効であることが確認された。
論文参考訳（メタデータ） (2024-10-13T18:16:50Z)
Modeling User Retention through Generative Flow Networks [34.74982897470852]
フローベースのモデリング技術は、ユーザセッションで推奨される各項目に対する保持報酬をバックプロパガントすることができる。従来の学習目標と組み合わされたフローは、最終的には、即時フィードバックとユーザ保持の両方に対して、非カウントの累積報酬を最適化した。
論文参考訳（メタデータ） (2024-06-10T06:22:18Z)
User Welfare Optimization in Recommender Systems with Competing Content Creators [65.25721571688369]
本研究では,コンテンツ制作者間での競争ゲーム環境下で,システム側ユーザ福祉の最適化を行う。本稿では,推奨コンテンツの満足度に基づいて,各ユーザの重みの列を動的に計算する,プラットフォームのためのアルゴリズムソリューションを提案する。これらの重みはレコメンデーションポリシーやポストレコメンデーション報酬を調整するメカニズムの設計に利用され、それによってクリエイターのコンテンツ制作戦略に影響を与える。
論文参考訳（メタデータ） (2024-04-28T21:09:52Z)
Collaborative-Enhanced Prediction of Spending on Newly Downloaded Mobile Games under Consumption Uncertainty [49.431361908465036]
ラベルのばらつきと極端性を緩和する頑健なモデルトレーニングと評価フレームワークを提案する。本フレームワークでは,ユーザIDに頼ることなく,ユーザのゲーム支出を予測するための協調型モデルを提案する。当社のアプローチは、オフラインデータに対する注目すべき textbf17.11% の強化を実現し、プロダクションモデルよりも顕著に改善されていることを示す。
論文参考訳（メタデータ） (2024-04-12T07:47:02Z)
Maximizing the Success Probability of Policy Allocations in Online Systems [5.485872703839928]
本稿では,個々の入札要求ではなく,ユーザタイムラインのレベルでの問題を検討する。ユーザに対してポリシーを最適に割り当てるために、典型的な複数の処理割り当て手法は、knapsackのような問題を解決する。本稿では,政策アロケーションの探索を目的としたSuccessProMaxアルゴリズムについて紹介する。
論文参考訳（メタデータ） (2023-12-26T10:55:33Z)
Online Ad Procurement in Non-stationary Autobidding Worlds [10.871587311621974]
本稿では,複数次元決定変数,帯域幅フィードバック,長期不確実な制約を用いたオンライン意思決定のための原始双対アルゴリズムを提案する。提案アルゴリズムは, 逆数, 逆数, 周期的, エルゴディックな手順により, 調達結果が生成されると, 多くの世界では, 後悔の度合いが低いことを示す。
論文参考訳（メタデータ） (2023-07-10T00:41:08Z)
Targeted Advertising on Social Networks Using Online Variational Tensor Regression [19.586412285513962]
我々は、オンラインターゲティング広告のための最初の文脈的盗賊フレームワークであると考えるものを提案する。提案するフレームワークは,多モードテンソルの形で,任意の特徴ベクトルに対応するように設計されている。提案したUCBアルゴリズムは,ベンチマークによる影響タスクの大幅な改善を実現することを実証的に確認する。
論文参考訳（メタデータ） (2022-08-22T22:10:45Z)
Adversarial Learning for Incentive Optimization in Mobile Payment Marketing [17.645000197183045]
支払いプラットフォームは、ユーザーがアプリケーションを通じて支払いを奨励するインセンティブを割り当てる大規模なマーケティングキャンペーンを開催している。投資のリターンを最大化するために、インセンティブアロケーションは2段階の手順で一般的に解決される。本稿では,この障害を克服するためのバイアス補正対向ネットワークを提案する。
論文参考訳（メタデータ） (2021-12-28T07:54:39Z)
Personalized multi-faceted trust modeling to determine trust links in social media and its potential for misinformation management [61.88858330222619]
ソーシャルメディアにおけるピア間の信頼関係を予測するためのアプローチを提案する。本稿では,データ駆動型多面信頼モデルを提案する。信頼を意識したアイテムレコメンデーションタスクで説明され、提案したフレームワークを大規模なYelpデータセットのコンテキストで評価する。
論文参考訳（メタデータ） (2021-11-11T19:40:51Z)
Dynamic Knapsack Optimization Towards Efficient Multi-Channel Sequential Advertising [52.3825928886714]
我々は、動的knapsack問題として、シーケンシャルな広告戦略最適化を定式化する。理論的に保証された二段階最適化フレームワークを提案し、元の最適化空間の解空間を大幅に削減する。強化学習の探索効率を向上させるため,効果的な行動空間削減手法も考案した。
論文参考訳（メタデータ） (2020-06-29T18:50:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。