論文の概要: Multi-Task Combinatorial Bandits for Budget Allocation
- arxiv url: http://arxiv.org/abs/2409.00561v1
- Date: Sat, 31 Aug 2024 23:19:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 13:55:44.364583
- Title: Multi-Task Combinatorial Bandits for Budget Allocation
- Title(参考訳): 予算配分のためのマルチタスクコンビネーションバンド
- Authors: Lin Ge, Yang Xu, Jianing Chu, David Cramer, Fuhong Li, Kelly Paulson, Rui Song,
- Abstract要約: 今日のトップ広告主は、通常、数百のキャンペーンを同時に管理し、年間を通じて一貫して新しいキャンペーンをローンチします。
マーケティングマネージャにとって重要な課題は、累積リターンを最大化するために、各キャンペーンにおいて様々な広告ラインで限られた予算を最適に割り当てることである。
本稿では,マルチタスクバンディット問題として予算配分を定式化し,新たなオンライン予算配分システムを提案する。
- 参考スコア(独自算出の注目度): 7.52750519688457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Today's top advertisers typically manage hundreds of campaigns simultaneously and consistently launch new ones throughout the year. A crucial challenge for marketing managers is determining the optimal allocation of limited budgets across various ad lines in each campaign to maximize cumulative returns, especially given the huge uncertainty in return outcomes. In this paper, we propose to formulate budget allocation as a multi-task combinatorial bandit problem and introduce a novel online budget allocation system. The proposed system: i) integrates a Bayesian hierarchical model to intelligently utilize the metadata of campaigns and ad lines and budget size, ensuring efficient information sharing; ii) provides the flexibility to incorporate diverse modeling techniques such as Linear Regression, Gaussian Processes, and Neural Networks, catering to diverse environmental complexities; and iii) employs the Thompson sampling (TS) technique to strike a balance between exploration and exploitation. Through offline evaluation and online experiments, our system demonstrates robustness and adaptability, effectively maximizing the overall cumulative returns. A Python implementation of the proposed procedure is available at https://anonymous.4open.science/r/MCMAB.
- Abstract(参考訳): 今日のトップ広告主は、通常、数百のキャンペーンを同時に管理し、年間を通じて一貫して新しいキャンペーンをローンチします。
マーケティングマネージャにとって重要な課題は、累積リターンを最大化するために、各キャンペーンにおいて様々な広告ラインで限られた予算を最適に割り当てることである。
本稿では,マルチタスク組合せバンディット問題として予算配分を定式化し,新しいオンライン予算配分システムを提案する。
提案する制度
一 効率の良い情報共有を確保するため、キャンペーン及び広告ライン及び予算の大きさのメタデータをインテリジェントに活用するためのベイズ的階層モデルを統合すること。
二 多様な環境に配慮した線形回帰、ガウス過程、ニューラルネットワーク等の多様なモデリング技術を組み込むための柔軟性を提供すること。
三 探究と搾取のバランスをとるために、トンプソンサンプリング(TS)技術を用いる。
オフライン評価とオンライン実験により,本システムはロバスト性と適応性を実証し,総累積リターンを効果的に最大化する。
提案されたプロシージャのPython実装はhttps://anonymous.4open.science/r/MCMABで公開されている。
関連論文リスト
- Improving Portfolio Optimization Results with Bandit Networks [0.0]
非定常環境向けに設計された新しいBanditアルゴリズムを導入・評価する。
まず,Adaptive Discounted Thompson Smpling (ADTS)アルゴリズムを提案する。
そこで我々は,この手法を,CADTSアルゴリズムを導入してポートフォリオ最適化問題に拡張する。
論文 参考訳(メタデータ) (2024-10-05T16:17:31Z) - A Federated Online Restless Bandit Framework for Cooperative Resource Allocation [23.698976872351576]
MRPの未知系力学を用いた協調資源配分問題について検討する。
我々は、このマルチエージェントオンラインRMAB問題を解決するために、フェデレートトンプソン対応Whittle Index(FedTSWI)アルゴリズムを作成した。
数値計算の結果,提案アルゴリズムは,ベースラインと比較して,$mathcalO(sqrtTlog(T))$の高速収束率と性能の向上を実現している。
論文 参考訳(メタデータ) (2024-06-12T08:34:53Z) - Multimodal Instruction Tuning with Conditional Mixture of LoRA [54.65520214291653]
本稿では,Low-Rank Adaption (LoRA) とマルチモーダル命令チューニングを統合した新しい手法を提案する。
各入力インスタンスのユニークな要求に合わせた低ランク適応行列を動的に構築することで、LoRAを革新する。
様々なマルチモーダル評価データセットの実験結果から、MixLoRAは従来のLoRAを同等以上のランクで上回るだけでなく、性能も向上していることが示された。
論文 参考訳(メタデータ) (2024-02-24T20:15:31Z) - A Bayesian Framework of Deep Reinforcement Learning for Joint O-RAN/MEC
Orchestration [12.914011030970814]
マルチアクセスエッジコンピューティング(MEC)は、コモディティプラットフォーム上でOpen Radio Access Network(O-RAN)と一緒に実装することで、低コストなデプロイメントを実現する。
本稿では,ベイジアンディープ強化学習(RL)を用いたO-RAN/MEC協調オーケストレーションを提案する。
論文 参考訳(メタデータ) (2023-12-26T18:04:49Z) - Sequential Information Design: Markov Persuasion Process and Its
Efficient Reinforcement Learning [156.5667417159582]
本稿では,逐次情報設計の新たなモデル,すなわちマルコフ説得過程(MPP)を提案する。
MPPのプランニングは、ミオピックレシーバーに同時に説得されるシグナルポリシーを見つけ、送信者の最適な長期累積ユーティリティを誘導する、というユニークな課題に直面している。
我々は,楽観主義と悲観主義の両原理の新たな組み合わせを特徴とする,実証可能な効率のよい非回帰学習アルゴリズム,Optimism-Pessimism Principle for Persuasion Process (OP4) を設計する。
論文 参考訳(メタデータ) (2022-02-22T05:41:43Z) - LBCF: A Large-Scale Budget-Constrained Causal Forest Algorithm [11.82503645248441]
予算制約の下で各ユーザに対して適切なインセンティブ(すなわち治療)を選択する方法が重要な研究課題である。
本稿では,大規模予算制約付き因果樹林 (LBCF) アルゴリズムと呼ばれる,予算制約下での新規な木に基づく治療選択手法を提案する。
当社のアプローチは,ユーザのキャンペーンエンゲージメント期間を増やすために,大規模なビデオプラットフォーム上で現実のシナリオに展開する。
論文 参考訳(メタデータ) (2022-01-29T13:21:07Z) - Contextual Bandits for Advertising Campaigns: A Diffusion-Model
Independent Approach (Extended Version) [73.59962178534361]
拡散ネットワークや情報伝達の仕方を決定するモデルについてはほとんど知られていないと考えられる影響問題について検討する。
この設定では、キャンペーンの実行中に主要な拡散パラメータを学習するために探索-探索アプローチが使用できる。
本稿では,2つの文脈的マルチアーム・バンディットの手法と,インフルエンサーの残りのポテンシャルに対する上限について比較する。
論文 参考訳(メタデータ) (2022-01-13T22:06:10Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - The Best of Many Worlds: Dual Mirror Descent for Online Allocation
Problems [7.433931244705934]
本稿では,意思決定者に対して未知の入力モデルを用いて,各要求に対する報酬とリソース消費を生成するデータ駆動型設定について考察する。
様々な入力モデルにおいて,どの入力に直面するかを知ることなく,優れた性能が得られるアルゴリズムの一般クラスを設計する。
我々のアルゴリズムはラグランジアン双対空間で動作し、オンラインミラー降下を用いて更新される各リソースに対して双対乗算器を保持する。
論文 参考訳(メタデータ) (2020-11-18T18:39:17Z) - Exploration in two-stage recommender systems [79.50534282841618]
2段階のレコメンデータシステムは、スケーラビリティと保守性のために業界で広く採用されている。
このセットアップの鍵となる課題は、各ステージの最適性能が最適なグローバルパフォーマンスを暗示していないことである。
そこで本研究では,ランクとノミネーター間の探索戦略を同期させる手法を提案する。
論文 参考訳(メタデータ) (2020-09-01T16:52:51Z) - MoTiAC: Multi-Objective Actor-Critics for Real-Time Bidding [47.555870679348416]
そこで本研究では,MoTiACというマルチエクティブ・アクタ・クリティカルスアルゴリズムを提案する。
従来のRLモデルとは異なり、提案されたMoTiACは複雑な入札環境で同時に多目的タスクを達成できる。
論文 参考訳(メタデータ) (2020-02-18T07:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。