論文の概要: Learning to Bid in Non-Stationary Repeated First-Price Auctions
- arxiv url: http://arxiv.org/abs/2501.13358v2
- Date: Tue, 22 Jul 2025 03:09:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 15:16:10.453542
- Title: Learning to Bid in Non-Stationary Repeated First-Price Auctions
- Title(参考訳): 非定常反復1次価格オークションにおけるビッドの学習
- Authors: Zihao Hu, Xiaoyu Fan, Yuan Yao, Jiheng Zhang, Zhengyuan Zhou,
- Abstract要約: 第一価オークションはデジタル広告市場で大きな注目を集めている。
第一価格オークションにおける最適な入札戦略を決定することはより複雑である。
対戦者の最多入札の順序のクラスに対する動的後悔の最小最大最適評価法を提案する。
- 参考スコア(独自算出の注目度): 20.933903777434086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: First-price auctions have recently gained significant traction in digital advertising markets, exemplified by Google's transition from second-price to first-price auctions. Unlike in second-price auctions, where bidding one's private valuation is a dominant strategy, determining an optimal bidding strategy in first-price auctions is more complex. From a learning perspective, the learner (a specific bidder) can interact with the environment (other bidders, i.e., opponents) sequentially to infer their behaviors. Existing research often assumes specific environmental conditions and benchmarks performance against the best fixed policy (static benchmark). While this approach ensures strong learning guarantees, the static benchmark can deviate significantly from the optimal strategy in environments with even mild non-stationarity. To address such scenarios, a dynamic benchmark--representing the sum of the highest achievable rewards at each time step--offers a more suitable objective. However, achieving no-regret learning with respect to the dynamic benchmark requires additional constraints. By inspecting reward functions in online first-price auctions, we introduce two metrics to quantify the regularity of the sequence of opponents' highest bids, which serve as measures of non-stationarity. We provide a minimax-optimal characterization of the dynamic regret for the class of sequences of opponents' highest bids that satisfy either of these regularity constraints. Our main technical tool is the Optimistic Mirror Descent (OMD) framework with a novel optimism configuration, which is well-suited for achieving minimax-optimal dynamic regret rates in this context. We then use synthetic datasets to validate our theoretical guarantees and demonstrate that our methods outperform existing ones.
- Abstract(参考訳): デジタル広告市場では、Googleが第2価格から第1価格に移行したのが例である。
プライスオークションとは異なり、プライスオークションにおける最適な入札戦略を決定することはより複雑である。
学習の観点からは、学習者(特定の入札者)が環境(他の入札者、すなわち相手)と順次対話して行動を予測することができる。
既存の研究は、しばしば特定の環境条件を仮定し、最高の固定されたポリシー(静的なベンチマーク)に対して性能をベンチマークする。
このアプローチは強力な学習保証を保証するが、静的ベンチマークは、穏やかな非定常性を持つ環境における最適な戦略から大きく逸脱する可能性がある。
このようなシナリオに対処するため、動的ベンチマークは、各ステップで達成可能な最高報酬の合計を表現し、より適切な目的を達成します。
しかし、動的ベンチマークに関して非regret学習を達成するには、追加の制約が必要である。
オンラインファーストプライスオークションにおける報酬関数を検査することにより,非定常性の尺度として,相手の最高入札の順序の規則性を定量化する2つの指標を導入する。
これらの規則性制約のいずれかを満たす、対戦者の最高入札の列のクラスに対する動的後悔の極小最大最適評価を提供する。
我々の主要な技術ツールであるOMD(Optimistic Mirror Descent)フレームワークは、新しい楽観的な構成で、この文脈で最小限の動的後悔率を達成するのに適しています。
次に、我々の理論的保証を検証するために合成データセットを使用し、我々の方法が既存のものより優れていることを実証する。
関連論文リスト
- Bounded Rationality for LLMs: Satisficing Alignment at Inference-Time [52.230936493691985]
本稿では,2次基準のしきい値に基づく制約を満たしつつ,主目的を最大化し,アライメントの多面性に対処する推論フレームワークSITAlignを提案する。
我々は、満足度に基づく推論アライメントアプローチの準最適境界を導出することで理論的洞察を提供する。
論文 参考訳(メタデータ) (2025-05-29T17:56:05Z) - BAT: Benchmark for Auto-bidding Task [67.56067222427946]
本稿では,最も普及している2種類のオークション形式を含むオークションベンチマークを提案する。
我々は,新しいデータセットに基づいて,一連の堅牢なベースラインを実装した。
このベンチマークは、研究者や実践者が革新的なオートバイディングアルゴリズムを開発し、洗練するための、ユーザフレンドリで直感的なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-05-13T12:12:34Z) - Joint Value Estimation and Bidding in Repeated First-Price Auctions [28.10186884181921]
競売者は、各競売の後に実現された結果(勝敗)のみを観察する。
本稿では,私的価値を共同で推定し,入札戦略を最適化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-24T16:21:50Z) - Procurement Auctions via Approximately Optimal Submodular Optimization [53.93943270902349]
競売業者がプライベートコストで戦略的売り手からサービスを取得しようとする競売について検討する。
我々の目標は、取得したサービスの品質と販売者の総コストとの差を最大化する計算効率の良いオークションを設計することである。
論文 参考訳(メタデータ) (2024-11-20T18:06:55Z) - A Primal-Dual Online Learning Approach for Dynamic Pricing of Sequentially Displayed Complementary Items under Sale Constraints [54.46126953873298]
顧客に対して順次表示される補完アイテムの動的価格設定の問題に対処する。
各項目の価格を個別に最適化するのは効果がないため、補完項目のコヒーレントな価格ポリシーが不可欠である。
実世界のデータからランダムに生成した合成設定を用いて,我々のアプローチを実証的に評価し,制約違反や後悔の観点からその性能を比較した。
論文 参考訳(メタデータ) (2024-07-08T09:55:31Z) - Conformalized Strategy-Proof Auctions [19.750369749595734]
買い手が真のバリュエーションの入札にインセンティブを与えられることを保証するため、戦略の保護は不可欠だ。
本稿では,統計的戦略-安全オークション機構の定式化を提案する。
我々は,データ駆動型オークション機構が統計的戦略-安全要件を高い確率で満たすことを保証するために,後悔の予測を活用するオークション受け入れルールを開発する。
論文 参考訳(メタデータ) (2024-05-20T13:39:58Z) - Structured Dynamic Pricing: Optimal Regret in a Global Shrinkage Model [50.06663781566795]
消費者の嗜好と価格感が時間とともに変化する動的モデルを考える。
我々は,モデルパラメータの順序を事前に把握している透視者と比較して,収益損失が予想される,後悔による動的価格政策の性能を計測する。
提案した政策の最適性を示すだけでなく,政策立案のためには,利用可能な構造情報を組み込むことが不可欠であることを示す。
論文 参考訳(メタデータ) (2023-03-28T00:23:23Z) - Online Learning under Budget and ROI Constraints via Weak Adaptivity [57.097119428915796]
制約付きオンライン学習問題に対する既存の原始双対アルゴリズムは、2つの基本的な仮定に依存している。
このような仮定は、標準の原始双対テンプレートを弱適応的後悔最小化器で与えることによって、どのように回避できるのかを示す。
上記の2つの前提が満たされていない場合に保証される、世界の最高の保証を証明します。
論文 参考訳(メタデータ) (2023-02-02T16:30:33Z) - Adaptive Risk-Aware Bidding with Budget Constraint in Display
Advertising [47.14651340748015]
本稿では,強化学習による予算制約を考慮した適応型リスク対応入札アルゴリズムを提案する。
リスク・アット・バリュー(VaR)に基づく不確実性とリスク傾向の本質的関係を理論的に明らかにする。
論文 参考訳(メタデータ) (2022-12-06T18:50:09Z) - A Reinforcement Learning Approach in Multi-Phase Second-Price Auction
Design [158.0041488194202]
多相第2価格オークションにおけるリザーブ価格の最適化について検討する。
売り手の視点からは、潜在的に非現実的な入札者の存在下で、環境を効率的に探索する必要がある。
第三に、売り手のステップごとの収益は未知であり、非線形であり、環境から直接観察することさえできない。
論文 参考訳(メタデータ) (2022-10-19T03:49:05Z) - Multi-Asset Spot and Option Market Simulation [52.77024349608834]
正規化フローに基づく1つの基盤となる1つのマーケットシミュレータを現実的に構築する。
本研究では, 正規化流れの条件付き可逆性を活用し, 独立シミュレータの連立分布をキャリブレーションするスケーラブルな手法を提案する。
論文 参考訳(メタデータ) (2021-12-13T17:34:28Z) - Fast Rate Learning in Stochastic First Price Bidding [0.0]
ファーストプライスのオークションは、プログラム広告におけるビックレーのオークションに基づく伝統的な入札アプローチを大きく置き換えている。
対戦相手の最大入札分布が分かっている場合, 後悔度を著しく低くする方法を示す。
我々のアルゴリズムは、様々な入札分布の文献で提案されている選択肢よりもはるかに高速に収束する。
論文 参考訳(メタデータ) (2021-07-05T07:48:52Z) - Efficient Algorithms for Stochastic Repeated Second-price Auctions [0.0]
我々は,繰り返し競売を行うための効率的な逐次入札戦略を開発する。
この問題に対する最初のパラメトリック下界を提供する。
本稿では,探索時コミット帯域幅アルゴリズムを思い起こさせる,より説明可能な戦略を提案する。
論文 参考訳(メタデータ) (2020-11-10T12:45:02Z) - Learning to Bid Optimally and Efficiently in Adversarial First-price
Auctions [40.30925727499806]
我々は,$widetildeO(sqrtT)$ regretを達成する,最初のミニマックス最適オンライン入札アルゴリズムを開発した。
Verizon Mediaから得られた3つの実世界の1価オークションデータセットを用いて,本アルゴリズムを検証した。
論文 参考訳(メタデータ) (2020-07-09T05:40:39Z) - Optimal Bidding Strategy without Exploration in Real-time Bidding [14.035270361462576]
予算制約によるユーティリティの最大化は、リアルタイム入札(RTB)システムにおける広告主の主要な目標である。
それまでの作品は、検閲された国家の困難を和らげるために競売に敗れたことを無視していた。
本稿では,リアルタイムトラフィックで観測される真の分布の挙動を模倣するために,最大エントロピー原理を用いた新しい実用的枠組みを提案する。
論文 参考訳(メタデータ) (2020-03-31T20:43:28Z) - Optimal No-regret Learning in Repeated First-price Auctions [38.908235632001116]
オンライン学習を反復した初価オークションで研究する。
我々は,ほぼ最適の$widetildeO(sqrtT)$ regret boundを達成するための最初の学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-03-22T03:32:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。