論文の概要: HALO: Hindsight-Augmented Learning for Online Auto-Bidding
- arxiv url: http://arxiv.org/abs/2508.03267v2
- Date: Wed, 06 Aug 2025 12:13:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 13:27:10.399279
- Title: HALO: Hindsight-Augmented Learning for Online Auto-Bidding
- Title(参考訳): HALO: オンライン自動入札のための隠れた学習
- Authors: Pusen Dong, Chenglong Cao, Xinyu Zhou, Jirong You, Linhe Xu, Feifan Xu, Shuo Yuan,
- Abstract要約: デジタル広告プラットフォームはリアルタイム入札(RTB)システムを通じてミリ秒レベルのオークションを運営している。
このダイナミックなメカニズムは、正確なオーディエンスターゲティングを可能にするが、深い運用上の複雑さをもたらす。
HALO: オンライン自動入札のための隠れた学習法を提案する。
- 参考スコア(独自算出の注目度): 2.9058410231275014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Digital advertising platforms operate millisecond-level auctions through Real-Time Bidding (RTB) systems, where advertisers compete for ad impressions through algorithmic bids. This dynamic mechanism enables precise audience targeting but introduces profound operational complexity due to advertiser heterogeneity: budgets and ROI targets span orders of magnitude across advertisers, from individual merchants to multinational brands. This diversity creates a demanding adaptation landscape for Multi-Constraint Bidding (MCB). Traditional auto-bidding solutions fail in this environment due to two critical flaws: 1) severe sample inefficiency, where failed explorations under specific constraints yield no transferable knowledge for new budget-ROI combinations, and 2) limited generalization under constraint shifts, as they ignore physical relationships between constraints and bidding coefficients. To address this, we propose HALO: Hindsight-Augmented Learning for Online Auto-Bidding. HALO introduces a theoretically grounded hindsight mechanism that repurposes all explorations into training data for arbitrary constraint configuration via trajectory reorientation. Further, it employs B-spline functional representation, enabling continuous, derivative-aware bid mapping across constraint spaces. HALO ensures robust adaptation even when budget/ROI requirements differ drastically from training scenarios. Industrial dataset evaluations demonstrate the superiority of HALO in handling multi-scale constraints, reducing constraint violations while improving GMV.
- Abstract(参考訳): デジタル広告プラットフォームはリアルタイム入札(RTB)システムを通じてミリ秒レベルのオークションを運営しており、広告主はアルゴリズムによる入札を通じて広告インプレッションを競う。
このダイナミックなメカニズムは、正確なオーディエンスターゲティングを可能にするが、広告主の不均一性による深刻な運用上の複雑さをもたらす。
この多様性は、MCB(Multi-Constraint Bidding)に要求される適応環境を生み出します。
従来の自動入札ソリューションはこの環境では2つの重大な欠陥のために失敗する。
1)厳密なサンプル非効率性であって、特定の制約の下での探索に失敗した場合には、新しい予算とROIの組み合わせに関する伝達可能な知識が得られず、
2 制約シフトの下での限定一般化は、制約と入札係数の間の物理的関係を無視する。
これを解決するために、オンライン自動入札のための隠れた学習法HALOを提案する。
HALOは、軌道方向のリオリエンテーションによる任意の制約設定のためのトレーニングデータへの全ての探索を再利用する理論的に基底化されたヒンドシット機構を導入している。
さらに、B-スプライン関数表現を採用し、制約空間を横断する連続的微分対応入札マッピングを可能にする。
HALOは、予算/ROI要件がトレーニングシナリオと大きく異なる場合でも、堅牢な適応を保証する。
産業用データセット評価は,マルチスケール制約処理におけるHALOの優位性を示し,GMVの改善とともに制約違反を低減する。
関連論文リスト
- Generative Large-Scale Pre-trained Models for Automated Ad Bidding Optimization [5.460538555236247]
GRAD(Generative Reward-driven Ad-bidding with Mixture-of-Experts)を提案する。
GRADはプラットフォーム収益を大幅に向上させ、現代の広告主の進化的かつ多様な要求に対処する上での有効性を強調した。
論文 参考訳(メタデータ) (2025-08-04T02:46:18Z) - Multi-task Offline Reinforcement Learning for Online Advertising in Recommender Systems [54.709976343045824]
現在のオフライン強化学習(RL)手法は、スパース広告シナリオに適用した場合、重大な課題に直面している。
MTORLは,2つの主要な目標を対象とする,新しいマルチタスクオフラインRLモデルである。
我々はマルチタスク学習を用いて行動と報酬をデコードし、同時にチャネルレコメンデーションと予算配分に対処する。
論文 参考訳(メタデータ) (2025-06-29T05:05:13Z) - BAT: Benchmark for Auto-bidding Task [67.56067222427946]
本稿では,最も普及している2種類のオークション形式を含むオークションベンチマークを提案する。
我々は,新しいデータセットに基づいて,一連の堅牢なベースラインを実装した。
このベンチマークは、研究者や実践者が革新的なオートバイディングアルゴリズムを開発し、洗練するための、ユーザフレンドリで直感的なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-05-13T12:12:34Z) - Nash Equilibrium Constrained Auto-bidding With Bi-level Reinforcement Learning [64.2367385090879]
本稿では,プラットフォームの観点から,自動入札問題の新たな定式化を提案する。
これは、$epsilon$-NE制約の下ですべての広告主の社会的福祉を最大化することを目的としている。
NCB問題は、その制約された二段階構造と、典型的には多くの広告主が関与しているため、重大な課題を提起している。
論文 参考訳(メタデータ) (2025-03-13T12:25:36Z) - A Primal-Dual Online Learning Approach for Dynamic Pricing of Sequentially Displayed Complementary Items under Sale Constraints [54.46126953873298]
顧客に対して順次表示される補完アイテムの動的価格設定の問題に対処する。
各項目の価格を個別に最適化するのは効果がないため、補完項目のコヒーレントな価格ポリシーが不可欠である。
実世界のデータからランダムに生成した合成設定を用いて,我々のアプローチを実証的に評価し,制約違反や後悔の観点からその性能を比較した。
論文 参考訳(メタデータ) (2024-07-08T09:55:31Z) - Online Learning under Budget and ROI Constraints via Weak Adaptivity [57.097119428915796]
制約付きオンライン学習問題に対する既存の原始双対アルゴリズムは、2つの基本的な仮定に依存している。
このような仮定は、標準の原始双対テンプレートを弱適応的後悔最小化器で与えることによって、どのように回避できるのかを示す。
上記の2つの前提が満たされていない場合に保証される、世界の最高の保証を証明します。
論文 参考訳(メタデータ) (2023-02-02T16:30:33Z) - ROI Constrained Bidding via Curriculum-Guided Bayesian Reinforcement
Learning [34.82004227655201]
非定常市場におけるROI制約入札を専門とする。
部分観測可能な制約付きマルコフ決定プロセスに基づいて,非単調な制約を満たすための最初のハードバリアソリューションを提案する。
本手法は,パラメータフリーなインジケータ強化報酬関数を利用して,カリキュラムガイドベイズ強化学習フレームワークを開発する。
論文 参考訳(メタデータ) (2022-06-10T17:30:12Z) - VFed-SSD: Towards Practical Vertical Federated Advertising [53.08038962443853]
本稿では,2つの制限を緩和する半教師付き分割蒸留フレームワーク VFed-SSD を提案する。
具体的には,垂直分割された未ラベルデータを利用する自己教師型タスクMatchedPair Detection (MPD) を開発する。
当社のフレームワークは,デプロイコストの最小化と大幅なパフォーマンス向上を図った,リアルタイム表示広告のための効率的なフェデレーション強化ソリューションを提供する。
論文 参考訳(メタデータ) (2022-05-31T17:45:30Z) - Optimal Bidding Strategy without Exploration in Real-time Bidding [14.035270361462576]
予算制約によるユーティリティの最大化は、リアルタイム入札(RTB)システムにおける広告主の主要な目標である。
それまでの作品は、検閲された国家の困難を和らげるために競売に敗れたことを無視していた。
本稿では,リアルタイムトラフィックで観測される真の分布の挙動を模倣するために,最大エントロピー原理を用いた新しい実用的枠組みを提案する。
論文 参考訳(メタデータ) (2020-03-31T20:43:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。