論文の概要: Learning to Bid in Repeated Second-Price Auctions with Dynamic Values and Aggregated Feedback
- arxiv url: http://arxiv.org/abs/2605.28133v1
- Date: Wed, 27 May 2026 08:20:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.884112
- Title: Learning to Bid in Repeated Second-Price Auctions with Dynamic Values and Aggregated Feedback
- Title(参考訳): 動的値と集約フィードバックを持つ繰り返し第2価格オークションにおけるバイド学習
- Authors: Benjamin Heymann, Otmane Sakhi,
- Abstract要約: 入札者の価値が動的である場合、すなわち、現在の価値が過去の結果に依存する場合、入札者の価値が動的である場合、入札を学習する問題について研究する。
我々は,プラグイン推定器と最適ポリシーの微分方程式を組み合わせた学習手法のクラスに対して,後悔すべき境界を導出する。
- 参考スコア(独自算出の注目度): 5.65780894346598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of learning to bid when the bidder's value is dynamic, i.e., when the current value depends on past outcomes. Specifically, we consider a bidder participating in repeated second-price auctions whose value depends on the time elapsed since their last successful bid, with auctions arriving in continuous time and only aggregated feedback revealed at the end of the horizon. Such a bidder must (1) balance the immediate benefit of winning the current auction against its impact on future values and (2) learn unknown environmental parameters. We derive regret bounds for a class of learning methods that combine plug-in estimators with a differential-equation characterization of the optimal policy, and show that a specific confidence bound algorithm learns the optimal policy with a near optimal regret of $\widetilde{O}(\log N)$ for piecewise linear primitives, and $\widetilde{O}(N^{1/3})$ for general, smooth primitives, achieving these regrets without explicit randomization. These theoretical results are supported by numerical experiments.
- Abstract(参考訳): 入札者の価値が動的である場合、すなわち、現在の価値が過去の結果に依存する場合、入札者の価値が動的である場合、入札を学習する問題について研究する。
具体的には、最終入札から経過した時間に依存した第2価格の競売に繰り返し参加する入札者について検討し、連続した時間内に競売が行われ、地平線の終わりに得られたフィードバックのみを集計する。
そのような入札者は、(1)現在の競売に勝つという直接的な利益と、その将来の価値に対する影響と、(2)未知の環境パラメーターのバランスを取らなければならない。
我々は、プラグイン推定器と最適ポリシーの微分方程式的特徴を組み合わせた学習方法のクラスに対する後悔のバウンダリを導出し、特定の信頼のバウンダリアルゴリズムが、任意のリニアプリミティブに対して$\widetilde{O}(\log N)$と$\widetilde{O}(N^{1/3})$のほぼ最適なリコールで最適ポリシーを学ぶことを示す。
これらの理論結果は数値実験によって支持される。
関連論文リスト
- Log-Sum-Exponential Estimator for Off-Policy Evaluation and Learning [50.93804891554481]
従来の逆確率スコア推定よりも優れた対数推定演算子(log-sum-exponential (LSE)演算子)に基づく新しい推定器を提案する。
我々のLSE推定器は, 重み付き条件下での分散低減とロバスト性を示す。
政治以外の学習シナリオでは、LSE推定器と最適ポリシーの間のパフォーマンスギャップである後悔の限界を確立します。
論文 参考訳(メタデータ) (2025-06-07T17:37:10Z) - Learning to Bid in Non-Stationary Repeated First-Price Auctions [27.743710782882136]
第一価オークションはデジタル広告市場で大きな注目を集めている。
第一価格オークションにおける最適な入札戦略を決定することはより複雑である。
対戦者の最多入札の順序のクラスに対する動的後悔の最小最大最適評価法を提案する。
論文 参考訳(メタデータ) (2025-01-23T03:53:27Z) - Autobidders with Budget and ROI Constraints: Efficiency, Regret, and Pacing Dynamics [53.62091043347035]
オンライン広告プラットフォームで競合するオートバイディングアルゴリズムのゲームについて検討する。
本稿では,全ての制約を満たすことを保証し,個人の後悔を解消する勾配に基づく学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T21:59:30Z) - Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - Fast Rate Learning in Stochastic First Price Bidding [0.0]
ファーストプライスのオークションは、プログラム広告におけるビックレーのオークションに基づく伝統的な入札アプローチを大きく置き換えている。
対戦相手の最大入札分布が分かっている場合, 後悔度を著しく低くする方法を示す。
我々のアルゴリズムは、様々な入札分布の文献で提案されている選択肢よりもはるかに高速に収束する。
論文 参考訳(メタデータ) (2021-07-05T07:48:52Z) - Optimal No-regret Learning in Repeated First-price Auctions [38.908235632001116]
オンライン学習を反復した初価オークションで研究する。
我々は,ほぼ最適の$widetildeO(sqrtT)$ regret boundを達成するための最初の学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-03-22T03:32:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。