Fugu-MT 論文翻訳(概要): Stochastic Bandits for Multi-platform Budget Optimization in Online Advertising

論文の概要: Stochastic Bandits for Multi-platform Budget Optimization in Online Advertising

arxiv url: http://arxiv.org/abs/2103.10246v1
Date: Tue, 16 Mar 2021 22:10:28 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-19 13:52:01.561951
Title: Stochastic Bandits for Multi-platform Budget Optimization in Online Advertising
Title（参考訳）: オンライン広告におけるマルチプラットフォーム予算最適化のための確率帯域
Authors: Vashist Avadhanula, Riccardo Colini-Baldeschi, Stefano Leonardi, Karthik Abinav Sankararaman, Okke Schrijvers
Abstract要約: 我々は、複数のプラットフォームでキャンペーンのために広告主の与えられた予算を最適に費やしたいオンライン広告システムの問題を研究します。当社は、複数の広告プラットフォームを持つ大規模なインターネットオンライン広告会社の実世界のデータセットを使用して、アルゴリズムが一般的なベンチマークを上回っていることを示す。
参考スコア（独自算出の注目度）: 8.8896707993459
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study the problem of an online advertising system that wants to optimally spend an advertiser's given budget for a campaign across multiple platforms, without knowing the value for showing an ad to the users on those platforms. We model this challenging practical application as a Stochastic Bandits with Knapsacks problem over $T$ rounds of bidding with the set of arms given by the set of distinct bidding $m$-tuples, where $m$ is the number of platforms. We modify the algorithm proposed in Badanidiyuru \emph{et al.,} to extend it to the case of multiple platforms to obtain an algorithm for both the discrete and continuous bid-spaces. Namely, for discrete bid spaces we give an algorithm with regret $O\left(OPT \sqrt {\frac{mn}{B} }+ \sqrt{mn OPT}\right)$, where $OPT$ is the performance of the optimal algorithm that knows the distributions. For continuous bid spaces the regret of our algorithm is $\tilde{O}\left(m^{1/3} \cdot \min\left\{ B^{2/3}, (m T)^{2/3} \right\} \right)$. When restricted to this special-case, this bound improves over Sankararaman and Slivkins in the regime $OPT \ll T$, as is the case in the particular application at hand. Second, we show an $ \Omega\left (\sqrt {m OPT} \right)$ lower bound for the discrete case and an $\Omega\left( m^{1/3} B^{2/3}\right)$ lower bound for the continuous setting, almost matching the upper bounds. Finally, we use a real-world data set from a large internet online advertising company with multiple ad platforms and show that our algorithms outperform common benchmarks and satisfy the required properties warranted in the real-world application.
Abstract（参考訳）: 我々は,複数のプラットフォームにまたがる広告キャンペーンにおいて,広告主の予算を最適に利用しようとするオンライン広告システムの問題について,それらのプラットフォーム上でユーザに対して広告を表示する価値を知らずに検討する。この挑戦的な実践的応用を、knapsacks問題のある確率的バンディットとしてモデル化し、$m$-tuplesという異なる入札のセットによって与えられたアームセットを$t$の入札問題に当てはめ、$m$をプラットフォーム数とする。我々は、badanidiyuru \emph{et al.,} で提案するアルゴリズムを複数のプラットフォームに拡張し、離散入札空間と連続入札空間の両方のアルゴリズムを得る。すなわち、離散入札空間に対して、後悔するアルゴリズムに$o\left(opt \sqrt {\frac{mn}{b} }+ \sqrt{mn opt}\right)$を与え、ここで$opt$は分布を知る最適なアルゴリズムの性能である。連続入札空間に対しては、我々のアルゴリズムの後悔は$\tilde{O}\left(m^{1/3} \cdot \min\left\{ B^{2/3}, (m T)^{2/3} \right\right)$である。この特別なケースに制限された場合、このバウンダリは、手元にある特定のアプリケーションの場合と同様に、体制$OPT \ll T$のサンカラマンとスリブキンスよりも改善される。第二に、離散ケースに対する$ \Omega\left (\sqrt {m OPT} \right)$下界と連続設定に対する$ \Omega\left(m^{1/3} B^{2/3}\right)$下界を示し、上界とほぼ一致する。最後に、複数の広告プラットフォームを持つ巨大インターネットオンライン広告会社の実世界のデータセットを使用し、我々のアルゴリズムが一般的なベンチマークを上回り、現実世界のアプリケーションで保証される要求された特性を満たすことを示す。

関連論文リスト

Reinforcement Learning from Adversarial Preferences in Tabular MDPs [62.73758165845971]
我々は,敵対的嗜好を持つエピソードマルコフ決定プロセス(MDP)の新たな枠組みを導入する。 PbMDP では、標準的なエピソード MDP とは異なり、学習者は2つの候補アーム間の好みを観察する。我々は、既知遷移の下で、T2/3$という残差境界を達成するアルゴリズムを開発する。
論文参考訳（メタデータ） (2025-07-15T20:19:32Z)
Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。 SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文参考訳（メタデータ） (2023-12-13T11:08:25Z)
Projection-free Online Exp-concave Optimization [21.30065439295409]
LOOをベースとしたONSスタイルのアルゴリズムを提案する。これは全体$O(T)$コールを使用して,$widetildeO(n2/3T2/3)$でバウンドされた最悪のケースを保証します。我々のアルゴリズムは、重要かつ確実な低次元データシナリオにおいて最も興味深い。
論文参考訳（メタデータ） (2023-02-09T18:58:05Z)
Combinatorial Bandits without Total Order for Arms [52.93972547896022]
セット依存報酬分布を捕捉し、武器の合計順序を仮定しない報酬モデルを提案する。我々は、新しい後悔分析を開発し、$Oleft(frack2 n log Tepsilonright)$ gap-dependent regret boundと$Oleft(k2sqrtn T log Tright)$ gap-dependent regret boundを示す。
論文参考訳（メタデータ） (2021-03-03T23:08:59Z)
An Algorithm for Stochastic and Adversarial Bandits with Switching Costs [10.549307055348596]
そこで本研究では,マルチアームバンディットのスイッチングコストを考慮したアルゴリズムを提案し,そのアルゴリズムがアームを切り替える度に$lambda$を支払う。私たちのアルゴリズムは、Zimmert and Seldin(2021)のTsallis-INFアルゴリズムの適応に基づいています。
論文参考訳（メタデータ） (2021-02-19T11:03:51Z)
Near-Optimal Algorithms for Differentially Private Online Learning in a Stochastic Environment [7.4288915613206505]
本研究では,バンディットとフルインフォメーションの両方のフィードバックの下で,オンライン学習環境における個人差分問題について検討する。差分的な私的盗賊に対しては、UTBとトンプソンサンプリングに基づくアルゴリズムを同時に提案し、最適な$O左(sum_j: Delta_j>0 fracln(T)min leftDelta_j, epsilon right)$ minimax lower boundとする。同じ差分プライベートなフル情報設定に対しては、$epsilon$-differentially も提示する。
論文参考訳（メタデータ） (2021-02-16T02:48:16Z)
Top-$k$ eXtreme Contextual Bandits with Arm Hierarchy [71.17938026619068]
我々は、腕の総数が膨大であることができるトップ$ k$極端な文脈的包帯問題を研究します。まず,Inverse Gap Weighting戦略を用いて,非極端に実現可能な設定のアルゴリズムを提案する。我々のアルゴリズムは、$O(ksqrt(A-k+1)T log (|mathcalF|T))$である。
論文参考訳（メタデータ） (2021-02-15T19:10:52Z)
Fine-Grained Gap-Dependent Bounds for Tabular MDPs via Adaptive Multi-Step Bootstrap [84.66885506098724]
本稿では,アダプティブ・マルチステップ・ブートストラップ (AMB) を用いた表層有限水平マルコフ決定過程 (MDP) のモデルフリーアルゴリズムを提案する。 AMBは,部分最適ギャップの逆の和でのみスケールする,ギャップ依存的後悔境界を達成できることを示す。また、AMB は $frac|Z_mul|Delta_min$ regret という追加の $frac|Z_mul|Delta_min$ を被っていることも示しています。
論文参考訳（メタデータ） (2021-02-09T07:46:34Z)
Near-Optimal Regret Bounds for Contextual Combinatorial Semi-Bandits with Linear Payoff Functions [53.77572276969548]
我々は、C$2$UCBアルゴリズムが分割マトロイド制約に対して最適な後悔結合$tildeO(dsqrtkT + dk)$を有することを示した。一般的な制約に対して,C$2$UCBアルゴリズムで腕の報酬推定値を変更するアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-01-20T04:29:18Z)
Fully Gap-Dependent Bounds for Multinomial Logit Bandit [5.132017939561661]
マルチノミアルロジット (MNL) バンディット問題について検討し、各ステップごとに、販売者は、N$アイテムのプールから最大でK$のサイズを提供する。 i) $widetildeO(sum_i = 1N Delta_i-2)$ time steps with high probability, (ii) $O(sum_i notin S* KDelta_i)というアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-11-19T17:52:12Z)
Adversarial Dueling Bandits [85.14061196945599]
本稿では,反逆デュエルバンドにおける後悔の問題を紹介する。学習者は、繰り返し一対のアイテムを選択し、このペアに対する相対的な二項利得フィードバックのみを観察しなければならない。我々の主な成果は、EmphBorda-winnerの1組の$K$アイテムと比較して、T$ラウンド後悔するアルゴリズムです。
論文参考訳（メタデータ） (2020-10-27T19:09:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。