論文の概要: Nash Equilibrium Constrained Auto-bidding With Bi-level Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2503.10304v1
- Date: Thu, 13 Mar 2025 12:25:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:53:55.726636
- Title: Nash Equilibrium Constrained Auto-bidding With Bi-level Reinforcement Learning
- Title(参考訳): 2レベル強化学習によるナッシュ平衡制約オートバイディング
- Authors: Zhiyu Mou, Miao Xu, Rongquan Bai, Zhuoran Yang, Chuan Yu, Jian Xu, Bo Zheng,
- Abstract要約: 本稿では,プラットフォームの観点から,自動入札問題の新たな定式化を提案する。
これは、$epsilon$-NE制約の下ですべての広告主の社会的福祉を最大化することを目的としている。
NCB問題は、その制約された二段階構造と、典型的には多くの広告主が関与しているため、重大な課題を提起している。
- 参考スコア(独自算出の注目度): 64.2367385090879
- License:
- Abstract: Many online advertising platforms provide advertisers with auto-bidding services to enhance their advertising performance. However, most existing auto-bidding algorithms fail to accurately capture the auto-bidding problem formulation that the platform truly faces, let alone solve it. Actually, we argue that the platform should try to help optimize each advertiser's performance to the greatest extent -- which makes $\epsilon$-Nash Equilibrium ($\epsilon$-NE) a necessary solution concept -- while maximizing the social welfare of all the advertisers for the platform's long-term value. Based on this, we introduce the \emph{Nash-Equilibrium Constrained Bidding} (NCB), a new formulation of the auto-bidding problem from the platform's perspective. Specifically, it aims to maximize the social welfare of all advertisers under the $\epsilon$-NE constraint. However, the NCB problem presents significant challenges due to its constrained bi-level structure and the typically large number of advertisers involved. To address these challenges, we propose a \emph{Bi-level Policy Gradient} (BPG) framework with theoretical guarantees. Notably, its computational complexity is independent of the number of advertisers, and the associated gradients are straightforward to compute. Extensive simulated and real-world experiments validate the effectiveness of the BPG framework.
- Abstract(参考訳): 多くのオンライン広告プラットフォームは、広告主に広告パフォーマンスを高めるための自動入札サービスを提供している。
しかし、既存の自動入札アルゴリズムのほとんどは、プラットフォームが本当に直面している自動入札問題の定式化を正確に捉えていない。
実際、プラットフォームは、各広告主のパフォーマンスを最大限に最適化するのに役立つべきだ、と我々は主張する。これにより$\epsilon$-Nash Equilibrium($\epsilon$-NE)が必要とされるソリューション概念となり、プラットフォームの長期的な価値のために、すべての広告主の社会的福祉を最大化する。
これに基づいて, プラットフォームの観点から, 自動入札問題の新たな定式化である \emph{Nash-Equilibrium Constrained Bidding} (NCB) を導入する。
具体的には、$\epsilon$-NE制約の下ですべての広告主の社会的福祉を最大化することを目的としている。
しかし、NTBの問題は、その制約された二段階構造と、典型的には多くの広告主が関与しているため、重大な課題を呈している。
これらの課題に対処するため,理論的に保証された 'emph{Bi-level Policy Gradient} (BPG) フレームワークを提案する。
特に、その計算複雑性は広告主数とは独立であり、関連する勾配は計算が容易である。
大規模なシミュレーションおよび実世界の実験により、BPGフレームワークの有効性が検証された。
関連論文リスト
- An Adaptable Budget Planner for Enhancing Budget-Constrained Auto-Bidding in Online Advertising [28.4314408199823]
ABPlannerは、予算制約のある自動入札を改善するために設計された、数発の適応可能な予算プランナーである。
ABPlannerは全段階にわたって予算を割り当て、予算配分計画に基づいて低レベルの自動入札を行うことができる。
ABPlannerの適応性は、文脈内強化学習にインスパイアされたシーケンシャルな意思決定アプローチによって達成される。
論文 参考訳(メタデータ) (2025-01-26T08:00:23Z) - A Primal-Dual Online Learning Approach for Dynamic Pricing of Sequentially Displayed Complementary Items under Sale Constraints [54.46126953873298]
顧客に対して順次表示される補完アイテムの動的価格設定の問題に対処する。
各項目の価格を個別に最適化するのは効果がないため、補完項目のコヒーレントな価格ポリシーが不可欠である。
実世界のデータからランダムに生成した合成設定を用いて,我々のアプローチを実証的に評価し,制約違反や後悔の観点からその性能を比較した。
論文 参考訳(メタデータ) (2024-07-08T09:55:31Z) - Online Ad Procurement in Non-stationary Autobidding Worlds [10.871587311621974]
本稿では,複数次元決定変数,帯域幅フィードバック,長期不確実な制約を用いたオンライン意思決定のための原始双対アルゴリズムを提案する。
提案アルゴリズムは, 逆数, 逆数, 周期的, エルゴディックな手順により, 調達結果が生成されると, 多くの世界では, 後悔の度合いが低いことを示す。
論文 参考訳(メタデータ) (2023-07-10T00:41:08Z) - Online Learning under Budget and ROI Constraints via Weak Adaptivity [57.097119428915796]
制約付きオンライン学習問題に対する既存の原始双対アルゴリズムは、2つの基本的な仮定に依存している。
このような仮定は、標準の原始双対テンプレートを弱適応的後悔最小化器で与えることによって、どのように回避できるのかを示す。
上記の2つの前提が満たされていない場合に保証される、世界の最高の保証を証明します。
論文 参考訳(メタデータ) (2023-02-02T16:30:33Z) - LBCF: A Large-Scale Budget-Constrained Causal Forest Algorithm [11.82503645248441]
予算制約の下で各ユーザに対して適切なインセンティブ(すなわち治療)を選択する方法が重要な研究課題である。
本稿では,大規模予算制約付き因果樹林 (LBCF) アルゴリズムと呼ばれる,予算制約下での新規な木に基づく治療選択手法を提案する。
当社のアプローチは,ユーザのキャンペーンエンゲージメント期間を増やすために,大規模なビデオプラットフォーム上で現実のシナリオに展開する。
論文 参考訳(メタデータ) (2022-01-29T13:21:07Z) - Inducing Equilibria via Incentives: Simultaneous Design-and-Play Finds
Global Optima [114.31577038081026]
本稿では,デザイナーとエージェントの問題を同時に1ループで解くための効率的な手法を提案する。
設計者は平衡問題を何度も解決しないが、エージェントに対するインセンティブの全体的な影響を予測できる。
このアルゴリズムは,幅広い種類のゲームに対して,サブ線形速度で大域的最適値に収束することを示す。
論文 参考訳(メタデータ) (2021-10-04T06:53:59Z) - Efficient Algorithms for Global Inference in Internet Marketplaces [6.2122699483618]
インターネット市場における供給需要のマッチングは、世界的な推論問題です。
近年まで、LP定式化によるWebスケールデータにおけるそのような問題の解決は難しかった。
最近の研究は、ポリトープの制約が単純であるような問題を解くための双対分解に基づくアプローチを開発した。
この研究では、これらの単純なポリトープを超えて、より複雑な構造化されたポリトープ制約を必要とする現実世界のインターネットマーケットプレイスを示す必要性を動機付けます。
論文 参考訳(メタデータ) (2021-03-09T08:00:58Z) - Dynamic Knapsack Optimization Towards Efficient Multi-Channel Sequential
Advertising [52.3825928886714]
我々は、動的knapsack問題として、シーケンシャルな広告戦略最適化を定式化する。
理論的に保証された二段階最適化フレームワークを提案し、元の最適化空間の解空間を大幅に削減する。
強化学習の探索効率を向上させるため,効果的な行動空間削減手法も考案した。
論文 参考訳(メタデータ) (2020-06-29T18:50:35Z) - Public Bayesian Persuasion: Being Almost Optimal and Almost Persuasive [57.47546090379434]
i) 任意の状態空間, (ii) 任意の行動空間, (iii) 任意の送信者のユーティリティ関数を用いて, 一般の状況下での公衆の説得問題を考察する。
任意の公的な説得問題に対して準多項式時間ビクテリア近似アルゴリズムを提案し、特定の設定でQPTASを出力する。
論文 参考訳(メタデータ) (2020-02-12T18:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。