論文の概要: Learning to Bid in Non-Stationary Repeated First-Price Auctions
- arxiv url: http://arxiv.org/abs/2501.13358v1
- Date: Thu, 23 Jan 2025 03:53:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:58:48.965283
- Title: Learning to Bid in Non-Stationary Repeated First-Price Auctions
- Title(参考訳): 非定常反復1次価格オークションにおけるビッドの学習
- Authors: Zihao Hu, Xiaoyu Fan, Yuan Yao, Jiheng Zhang, Zhengyuan Zhou,
- Abstract要約: 第一価オークションはデジタル広告市場で大きな注目を集めている。
第一価格オークションにおける最適な入札戦略を決定することはより複雑である。
入札順序の正則性を定量化する2つの指標を導入する。
- 参考スコア(独自算出の注目度): 20.933903777434086
- License:
- Abstract: First-price auctions have recently gained significant traction in digital advertising markets, exemplified by Google's transition from second-price to first-price auctions. Unlike in second-price auctions, where bidding one's private valuation is a dominant strategy, determining an optimal bidding strategy in first-price auctions is more complex. From a learning perspective, the learner (a specific bidder) can interact with the environment (other bidders) sequentially to infer their behaviors. Existing research often assumes specific environmental conditions and benchmarks performance against the best fixed policy (static benchmark). While this approach ensures strong learning guarantees, the static benchmark can deviate significantly from the optimal strategy in environments with even mild non-stationarity. To address such scenarios, a dynamic benchmark, which represents the sum of the best possible rewards at each time step, offers a more suitable objective. However, achieving no-regret learning with respect to the dynamic benchmark requires additional constraints. By inspecting reward functions in online first-price auctions, we introduce two metrics to quantify the regularity of the bidding sequence, which serve as measures of non-stationarity. We provide a minimax-optimal characterization of the dynamic regret when either of these metrics is sub-linear in the time horizon.
- Abstract(参考訳): デジタル広告市場では、Googleが第2価格から第1価格に移行したのが例である。
プライスオークションとは異なり、プライスオークションにおける最適な入札戦略を決定することはより複雑である。
学習の観点から、学習者(特定の入札者)は環境(他の入札者)と順次対話して行動を予測することができる。
既存の研究は、しばしば特定の環境条件を仮定し、最高の固定されたポリシー(静的なベンチマーク)に対して性能をベンチマークする。
このアプローチは強力な学習保証を保証するが、静的ベンチマークは、穏やかな非定常性を持つ環境における最適な戦略から大きく逸脱する可能性がある。
このようなシナリオに対処するために、各段階における最高の報酬の合計を表す動的ベンチマークは、より適切な目的を提供する。
しかし、動的ベンチマークに関して非regret学習を達成するには、追加の制約が必要である。
オンライン一価オークションにおける報酬関数を検査することにより、入札シーケンスの正則性を定量化する2つの指標を導入し、非定常性の尺度として機能する。
いずれの指標も時間的地平線におけるサブ線形である場合の動的後悔の最小値の特徴を与える。
関連論文リスト
- Procurement Auctions via Approximately Optimal Submodular Optimization [53.93943270902349]
競売業者がプライベートコストで戦略的売り手からサービスを取得しようとする競売について検討する。
我々の目標は、取得したサービスの品質と販売者の総コストとの差を最大化する計算効率の良いオークションを設計することである。
論文 参考訳(メタデータ) (2024-11-20T18:06:55Z) - A Primal-Dual Online Learning Approach for Dynamic Pricing of Sequentially Displayed Complementary Items under Sale Constraints [54.46126953873298]
顧客に対して順次表示される補完アイテムの動的価格設定の問題に対処する。
各項目の価格を個別に最適化するのは効果がないため、補完項目のコヒーレントな価格ポリシーが不可欠である。
実世界のデータからランダムに生成した合成設定を用いて,我々のアプローチを実証的に評価し,制約違反や後悔の観点からその性能を比較した。
論文 参考訳(メタデータ) (2024-07-08T09:55:31Z) - Structured Dynamic Pricing: Optimal Regret in a Global Shrinkage Model [50.06663781566795]
消費者の嗜好と価格感が時間とともに変化する動的モデルを考える。
我々は,モデルパラメータの順序を事前に把握している透視者と比較して,収益損失が予想される,後悔による動的価格政策の性能を計測する。
提案した政策の最適性を示すだけでなく,政策立案のためには,利用可能な構造情報を組み込むことが不可欠であることを示す。
論文 参考訳(メタデータ) (2023-03-28T00:23:23Z) - Adaptive Risk-Aware Bidding with Budget Constraint in Display
Advertising [47.14651340748015]
本稿では,強化学習による予算制約を考慮した適応型リスク対応入札アルゴリズムを提案する。
リスク・アット・バリュー(VaR)に基づく不確実性とリスク傾向の本質的関係を理論的に明らかにする。
論文 参考訳(メタデータ) (2022-12-06T18:50:09Z) - A Reinforcement Learning Approach in Multi-Phase Second-Price Auction
Design [158.0041488194202]
多相第2価格オークションにおけるリザーブ価格の最適化について検討する。
売り手の視点からは、潜在的に非現実的な入札者の存在下で、環境を効率的に探索する必要がある。
第三に、売り手のステップごとの収益は未知であり、非線形であり、環境から直接観察することさえできない。
論文 参考訳(メタデータ) (2022-10-19T03:49:05Z) - Multi-Asset Spot and Option Market Simulation [52.77024349608834]
正規化フローに基づく1つの基盤となる1つのマーケットシミュレータを現実的に構築する。
本研究では, 正規化流れの条件付き可逆性を活用し, 独立シミュレータの連立分布をキャリブレーションするスケーラブルな手法を提案する。
論文 参考訳(メタデータ) (2021-12-13T17:34:28Z) - Fast Rate Learning in Stochastic First Price Bidding [0.0]
ファーストプライスのオークションは、プログラム広告におけるビックレーのオークションに基づく伝統的な入札アプローチを大きく置き換えている。
対戦相手の最大入札分布が分かっている場合, 後悔度を著しく低くする方法を示す。
我々のアルゴリズムは、様々な入札分布の文献で提案されている選択肢よりもはるかに高速に収束する。
論文 参考訳(メタデータ) (2021-07-05T07:48:52Z) - Efficient Algorithms for Stochastic Repeated Second-price Auctions [0.0]
我々は,繰り返し競売を行うための効率的な逐次入札戦略を開発する。
この問題に対する最初のパラメトリック下界を提供する。
本稿では,探索時コミット帯域幅アルゴリズムを思い起こさせる,より説明可能な戦略を提案する。
論文 参考訳(メタデータ) (2020-11-10T12:45:02Z) - Learning to Bid Optimally and Efficiently in Adversarial First-price
Auctions [40.30925727499806]
我々は,$widetildeO(sqrtT)$ regretを達成する,最初のミニマックス最適オンライン入札アルゴリズムを開発した。
Verizon Mediaから得られた3つの実世界の1価オークションデータセットを用いて,本アルゴリズムを検証した。
論文 参考訳(メタデータ) (2020-07-09T05:40:39Z) - Optimal Bidding Strategy without Exploration in Real-time Bidding [14.035270361462576]
予算制約によるユーティリティの最大化は、リアルタイム入札(RTB)システムにおける広告主の主要な目標である。
それまでの作品は、検閲された国家の困難を和らげるために競売に敗れたことを無視していた。
本稿では,リアルタイムトラフィックで観測される真の分布の挙動を模倣するために,最大エントロピー原理を用いた新しい実用的枠組みを提案する。
論文 参考訳(メタデータ) (2020-03-31T20:43:28Z) - Optimal No-regret Learning in Repeated First-price Auctions [38.908235632001116]
オンライン学習を反復した初価オークションで研究する。
我々は,ほぼ最適の$widetildeO(sqrtT)$ regret boundを達成するための最初の学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-03-22T03:32:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。