Fugu-MT 論文翻訳(概要): Budget-Constrained Causal Bandits: Bridging Uplift Modeling and Sequential Decision-Making

論文の概要: Budget-Constrained Causal Bandits: Bridging Uplift Modeling and Sequential Decision-Making

arxiv url: http://arxiv.org/abs/2604.26169v1
Date: Tue, 28 Apr 2026 23:24:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-30 15:59:36.194119
Title: Budget-Constrained Causal Bandits: Bridging Uplift Modeling and Sequential Decision-Making
Title（参考訳）: 予算制約された因果帯域:ブリッジングアップリフトモデリングとシークエンシャル意思決定
Authors: Abhirami Pillai,
Abstract要約: BCCB(Budget-Constrained Causal Bandits)は、予算を同時に消費しながら、どのユーザーが広告に反応するかを学習する。 BCCBは3つのコンポーネントを単一のシーケンシャルなプロセスに統合する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Treatment allocation under budget constraints is a central challenge in digital advertising: advertisers must decide which users to show ads to while spending a limited budget wisely. The standard approach follows a two-stage offline pipeline - first collect historical data to estimate heterogeneous treatment effects (HTE), then solve a constrained optimization to allocate the budget. This works well with abundant data, but fails in cold-start settings such as new campaigns, new markets, or new customer segments where little historical data exists. We propose Budget-Constrained Causal Bandits (BCCB), an online framework that learns which users respond to ads while simultaneously spending the budget, making treatment decisions one user at a time. BCCB unifies three components into a single sequential process: learning individual-level ad effectiveness, exploring users whose response is uncertain, and pacing the budget over time. We evaluated on the Criteo Uplift dataset, a large-scale advertising dataset from a real randomized controlled trial. Our key finding is a data-efficiency crossover: offline methods require approximately 10,000 historical observations to produce reliable results, while BCCB operates effectively from the very first user. Furthermore, BCCB exhibits 3-5x lower performance variance between runs, making it more practical for real campaign planning. Among purely online methods, BCCB consistently outperforms standard Thompson Sampling, budgeted Thompson Sampling, and greedy HTE estimation across all budget levels tested.
Abstract（参考訳）: 広告主は、限られた予算を賢明に使いながら、どのユーザーが広告を表示するかを決めなければならない。まず、履歴データを収集して不均一な処理効果(HTE)を推定し、予算を割り当てるための制約付き最適化を解決する。これは豊富なデータでうまく機能するが、新しいキャンペーン、新しい市場、あるいは過去のデータがほとんど存在しない新しい顧客セグメントのようなコールドスタート設定では失敗する。 BCCB(Budget-Constrained Causal Bandits)は、予算を同時に使いながら、どのユーザーが広告に反応するかを学習し、一度に1人のユーザーに対して治療決定を行うオンラインフレームワークである。 BCCBは3つのコンポーネントを単一のシーケンシャルなプロセスに統合する。実ランダム化制御試験による大規模広告データセットであるCriteo Upliftデータセットについて検討した。オフライン手法は信頼性の高い結果を生成するために約10,000の歴史的観測を必要とするが、BCCBは最初のユーザから効果的に動作する。さらにBCCBは、実行時のパフォーマンスのバラツキを3～5倍に減らし、実際のキャンペーンプランニングをより実用的なものにしている。純粋にオンラインの手法の中で、BCCBは標準のトンプソンサンプリング、予算化されたトンプソンサンプリング、およびテストされた全ての予算レベルにおける欲張りなHTE推定を一貫して上回っている。

関連論文リスト

Efficient Hyperparameter Search for Non-Stationary Model Training [11.55466013293614]
本稿では,オンライン学習システムにおけるモデルトレーニングのコストを削減するための2段階パラダイムを提案する。私たちの中核的な洞察は、ピークパフォーマンスを達成するのではなく、第1段階の正確な識別に焦点を当てることによって、積極的なコスト削減対策が可能になるということです。第1はCriteo 1TBデータセットで、第2は業界広告システムで、第2は2桁の規模で運用されている。
論文参考訳（メタデータ） (2025-12-01T04:06:24Z)
Learning Personalized Ad Impact via Contextual Reinforcement Learning under Delayed Rewards [36.029144318322686]
広告入札をコンテキストマルコフ決定プロセス(CMDP)としてモデル化し,ポアソンの報酬を遅延させる。効率的な推定法として,データ分割戦略と組み合わせた2段階の最大推定器を提案する。我々は、効率的な個人化入札戦略を導出するための強化学習アルゴリズムを設計する。
論文参考訳（メタデータ） (2025-10-22T22:08:36Z)
Offline Learning for Combinatorial Multi-armed Bandits [56.96242764723241]
Off-CMABはCMABの最初のオフライン学習フレームワークである。 Off-CMABは悲観的な報酬推定と解法を組み合わせる。合成および実世界のデータセットの実験は、CLCBの優れた性能を強調している。
論文参考訳（メタデータ） (2025-01-31T16:56:18Z)
Compute-Constrained Data Selection [77.06528009072967]
多くの強力なデータ選択手法は、ほとんど計算に最適ではないことが分かりました。計算最適トレーニングでは、パープレキシティと勾配データ選択は、それぞれ5xと10xのトレーニング-選択モデルサイズ比を必要とする。
論文参考訳（メタデータ） (2024-10-21T17:11:21Z)
Cost-Effective Proxy Reward Model Construction with On-Policy and Active Learning [70.22819290458581]
人間のフィードバックによる強化学習(RLHF)は、現在の大規模言語モデルパイプラインにおいて広く採用されているアプローチである。提案手法では,(1)OODを回避するためのオン・ポリシー・クエリと,(2)プライオリティ・クエリの最も情報性の高いデータを選択するためのアクティブ・ラーニングという2つの重要なイノベーションを導入している。
論文参考訳（メタデータ） (2024-07-02T10:09:19Z)
LBCF: A Large-Scale Budget-Constrained Causal Forest Algorithm [11.82503645248441]
予算制約の下で各ユーザに対して適切なインセンティブ(すなわち治療)を選択する方法が重要な研究課題である。本稿では,大規模予算制約付き因果樹林 (LBCF) アルゴリズムと呼ばれる,予算制約下での新規な木に基づく治療選択手法を提案する。当社のアプローチは,ユーザのキャンペーンエンゲージメント期間を増やすために,大規模なビデオプラットフォーム上で現実のシナリオに展開する。
論文参考訳（メタデータ） (2022-01-29T13:21:07Z)
A Nonmyopic Approach to Cost-Constrained Bayesian Optimization [10.078368988372247]
コスト制約付きBOを制約付きマルコフ決定過程(CMDP)として定式化する。コストと将来のイテレーションを考慮に入れた最適CMDPポリシーに対する効率的なロールアウト近似を開発する。
論文参考訳（メタデータ） (2021-06-10T22:44:37Z)
Optimal Bidding Strategy without Exploration in Real-time Bidding [14.035270361462576]
予算制約によるユーティリティの最大化は、リアルタイム入札(RTB)システムにおける広告主の主要な目標である。それまでの作品は、検閲された国家の困難を和らげるために競売に敗れたことを無視していた。本稿では,リアルタイムトラフィックで観測される真の分布の挙動を模倣するために,最大エントロピー原理を用いた新しい実用的枠組みを提案する。
論文参考訳（メタデータ） (2020-03-31T20:43:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。