論文の概要: Learning Safe Strategies for Value Maximizing Buyers in Uniform Price Auctions
- arxiv url: http://arxiv.org/abs/2406.03674v2
- Date: Wed, 28 May 2025 04:35:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 03:13:18.98864
- Title: Learning Safe Strategies for Value Maximizing Buyers in Uniform Price Auctions
- Title(参考訳): 均一価格オークションにおける買い手価値最大化のための安全策の学習
- Authors: Negin Golrezaei, Sourav Sahoo,
- Abstract要約: 単価最大化バイヤーの観点から、単価の複数ユニットオークションを繰り返す入札問題について検討する。
競売によらず,すべての競売においてRoI制約を満たすような安全な入札戦略を導入する。
実世界のオークションから得られた半合成データの実験により、安全な戦略は導出された理論的戦略を大幅に上回ることを示した。
- 参考スコア(独自算出の注目度): 4.089889918897877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the bidding problem in repeated uniform price multi-unit auctions from the perspective of a single value-maximizing buyer who aims to maximize their cumulative value over $T$ rounds while adhering to return-on-investment (RoI) constraints in each round. Buyers adopt $m$-uniform bidding format, where they submit $m$ bid-quantity pairs $(b_i, q_i)$ to demand $q_i$ units at bid $b_i$. We introduce safe bidding strategies as those that satisfy RoI constraints in every auction, regardless of competing bids. We show that these strategies depend only on the valuation curve of the bidder, and the bidder can focus on a finite subset of this class without loss of generality. While the number of strategies in this subset is exponential in $m$, we develop a polynomial-time algorithm to learn the optimal safe strategy that achieves sublinear regret in the online setting, where regret is measured against a clairvoyant benchmark that knows the competing bids a priori and selects a fixed hindsight optimal safe strategy. We then evaluate the performance of safe strategies against a clairvoyant that selects the optimal strategy from a richer class of strategies in the online setting. In this scenario, we compute the richness ratio, $\alpha\in(0, 1]$ for the class of strategies chosen by the clairvoyant and show that our algorithm, designed to learn safe strategies, achieves $\alpha$-approximate sublinear regret against these stronger benchmarks. Experiments on semi-synthetic data from real-world auctions show that safe strategies substantially outperform the derived theoretical bounds, making them quite appealing in practice.
- Abstract(参考訳): 各ラウンドにおけるリターン・オン・インベスタメント(RoI)制約に固執しながら、T$ラウンド以上の累積価値を最大化することを目的とした1つの価値最大化バイヤーの観点から、単価の複数ユニットオークションにおける入札問題を考察する。
買い手は$m$-uniform biddingフォーマットを採用し、$m$ bid-quantity pairs $(b_i, q_i)$を提出し、$q_i$ units at bid $b_i$を要求する。
競売によらず,すべての競売においてRoI制約を満たすような安全な入札戦略を導入する。
これらの戦略は入札者の評価曲線にのみ依存しており、入札者は一般性を失うことなく、このクラスの有限部分集合に集中することができる。
このサブセットの戦略数は$m$で指数関数的であるが、オンライン環境でのサブ線形後悔を実現するための最適安全戦略を学ぶための多項式時間アルゴリズムを開発する。
次に,オンライン環境において,よりリッチな戦略クラスから最適な戦略を選択する透視器に対する安全な戦略の性能を評価する。
このシナリオでは、透視器が選択した戦略のクラスに対して、リッチネス比$\alpha\in(0, 1]$を計算し、安全な戦略を学ぶために設計されたアルゴリズムが、これらの強力なベンチマークに対して、$\alpha$-approximate sublinear regretを達成することを示す。
実世界のオークションから得られた半合成データの実験では、安全な戦略が導出された理論的境界を大幅に上回っており、実際に非常に魅力的である。
関連論文リスト
- Learning to Lead: Incentivizing Strategic Agents in the Dark [50.93875404941184]
一般化プリンシパルエージェントモデルのオンライン学習バージョンについて検討する。
この挑戦的な設定のための最初の証明可能なサンプル効率アルゴリズムを開発した。
我々は、プリンシパルの最適ポリシーを学ぶために、ほぼ最適な $tildeO(sqrtT) $ regret bound を確立する。
論文 参考訳(メタデータ) (2025-06-10T04:25:04Z) - Learning to Bid in Non-Stationary Repeated First-Price Auctions [20.933903777434086]
第一価オークションはデジタル広告市場で大きな注目を集めている。
第一価格オークションにおける最適な入札戦略を決定することはより複雑である。
入札順序の正則性を定量化する2つの指標を導入する。
論文 参考訳(メタデータ) (2025-01-23T03:53:27Z) - Strategically-Robust Learning Algorithms for Bidding in First-Price Auctions [11.988955088595858]
ゲーム理論と機械学習のインターフェースにおいて,プライスオークションを繰り返し競うことの学習は基本的な問題である。
本稿では,プライスオークションにおける純ストラテジー入札のための新しいコンケーブの定式化を提案し,この問題に対する自然なグラディエント・アセンセント・アルゴリズムの解析に利用した。
論文 参考訳(メタデータ) (2024-02-12T01:33:33Z) - Contextual Dynamic Pricing with Strategic Buyers [93.97401997137564]
戦略的買い手によるコンテキスト動的価格問題について検討する。
売り手は買い手の真の特徴を観察せず、買い手の戦略行動に応じて操作された特徴を観察する。
本稿では,販売者の累積収益を最大化するために,購入者の戦略的行動をオンライン学習に取り入れた戦略的動的価格政策を提案する。
論文 参考訳(メタデータ) (2023-07-08T23:06:42Z) - Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。
報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。
次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文 参考訳(メタデータ) (2022-12-12T21:37:36Z) - Provably Efficient Offline Multi-agent Reinforcement Learning via
Strategy-wise Bonus [48.34563955829649]
本稿では,共同戦略の信頼区間を構築する戦略的な集中原理を提案する。
2人のプレイヤーによるゼロサムマルコフゲームの場合、戦略的なボーナスの凸性を利用して効率的なアルゴリズムを提案する。
すべてのアルゴリズムは、指定済みの戦略クラスである$Pi$を入力として取り、最良の戦略に近い戦略を$Pi$で出力することができる。
論文 参考訳(メタデータ) (2022-06-01T00:18:15Z) - Online Learning with Knapsacks: the Best of Both Worlds [54.28273783164608]
オンライン学習の課題として,意思決定者が,リソース制約の有限セットに違反することなく,期待する報酬を最大化したい,という課題を提起する。
当社のフレームワークは,意思決定者がそのエビデンスを柔軟かつコスト論的に扱えるようにします。
論文 参考訳(メタデータ) (2022-02-28T12:10:48Z) - Stochastic Strategic Patient Buyers: Revenue maximization using posted
prices [40.698164629357066]
我々は、意思決定を遅らせる能力を持つ買い手と対面する売り手について検討する。
各買い手の型は、価値と忍耐からなり、分布から標本化される。
我々は,販売者の最適な純粋戦略と,販売者の混合戦略に対する買い手の最良の対応戦略の両方を特徴付ける。
論文 参考訳(メタデータ) (2022-02-12T21:11:31Z) - Efficient Algorithms for Stochastic Repeated Second-price Auctions [0.0]
我々は,繰り返し競売を行うための効率的な逐次入札戦略を開発する。
この問題に対する最初のパラメトリック下界を提供する。
本稿では,探索時コミット帯域幅アルゴリズムを思い起こさせる,より説明可能な戦略を提案する。
論文 参考訳(メタデータ) (2020-11-10T12:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。