論文の概要: A Reinforcement Learning Approach in Multi-Phase Second-Price Auction
Design
- arxiv url: http://arxiv.org/abs/2210.10278v1
- Date: Wed, 19 Oct 2022 03:49:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 13:54:51.282215
- Title: A Reinforcement Learning Approach in Multi-Phase Second-Price Auction
Design
- Title(参考訳): 多相第二価格オークション設計における強化学習手法
- Authors: Rui Ai, Boxiang Lyu, Zhaoran Wang, Zhuoran Yang and Michael I. Jordan
- Abstract要約: 多相第2価格オークションにおけるリザーブ価格の最適化について検討する。
売り手の視点からは、潜在的に非現実的な入札者の存在下で、環境を効率的に探索する必要がある。
第三に、売り手のステップごとの収益は未知であり、非線形であり、環境から直接観察することさえできない。
- 参考スコア(独自算出の注目度): 158.0041488194202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study reserve price optimization in multi-phase second price auctions,
where seller's prior actions affect the bidders' later valuations through a
Markov Decision Process (MDP). Compared to the bandit setting in existing
works, the setting in ours involves three challenges. First, from the seller's
perspective, we need to efficiently explore the environment in the presence of
potentially nontruthful bidders who aim to manipulates seller's policy. Second,
we want to minimize the seller's revenue regret when the market noise
distribution is unknown. Third, the seller's per-step revenue is unknown,
nonlinear, and cannot even be directly observed from the environment.
We propose a mechanism addressing all three challenges. To address the first
challenge, we use a combination of a new technique named "buffer periods" and
inspirations from Reinforcement Learning (RL) with low switching cost to limit
bidders' surplus from untruthful bidding, thereby incentivizing approximately
truthful bidding. The second one is tackled by a novel algorithm that removes
the need for pure exploration when the market noise distribution is unknown.
The third challenge is resolved by an extension of LSVI-UCB, where we use the
auction's underlying structure to control the uncertainty of the revenue
function. The three techniques culminate in the $\underline{\rm
C}$ontextual-$\underline{\rm L}$SVI-$\underline{\rm U}$CB-$\underline{\rm
B}$uffer (CLUB) algorithm which achieves $\tilde{
\mathcal{O}}(H^{5/2}\sqrt{K})$ revenue regret when the market noise is known
and $\tilde{ \mathcal{O}}(H^{3}\sqrt{K})$ revenue regret when the noise is
unknown with no assumptions on bidders' truthfulness.
- Abstract(参考訳): 販売者の先行行動が、マルコフ決定プロセス(MDP)を通じて入札者の後の評価に影響を及ぼす多相第2価格オークションにおける予備価格の最適化について検討する。
既存の作品のバンディット設定と比較して、私たちの設定には3つの課題があります。
まず, 売り手の視点からは, 売り手の方針を操ろうとする非現実的な入札者の存在下で, 環境を効率的に探究する必要がある。
第2に,マーケットノイズの分布が不明な場合,販売者の収益を最小化したい。
第3に、販売者毎の収益は未知であり、非線形であり、環境から直接は観測できない。
3つの課題に対処するメカニズムを提案する。
第1の課題に対処するために,「バッファ期間」と呼ばれる新しい手法と,低スイッチコストの強化学習(rl)からのインスピレーションを組み合わせて,入札者の余剰分を不正入札から制限し,ほぼ真理的な入札にインセンティブを与える。
2つ目は、市場ノイズ分布が不明な場合に純粋な探索の必要性を除去する新しいアルゴリズムによって取り組まれている。
第3の課題はLSVI-UCBの拡張によって解決され、そこではオークションの基本構造を用いて収益関数の不確実性を制御する。
この3つの手法は、$\tilde{ \mathcal{O}}(H^{5/2}\sqrt{K})$\tilde{ \mathcal{O}}(H^{3}\sqrt{K})$\tilde{ \mathcal{O}}(H^{3}\sqrt{K})$収益の後悔を、入札者の真偽を仮定せずに、そのノイズが未知の場合には、収益の後悔を与える。
関連論文リスト
- Near-Optimal Dynamic Regret for Adversarial Linear Mixture MDPs [63.47351876442425]
本研究は,完全情報フィードバックの下で,相変わらずの相変わらずの線形混合MDPについて検討した。
本稿では,占領率に基づく手法と政策に基づく手法の利点を組み合わせた新しいアルゴリズムを提案する。
我々のアルゴリズムは$widetildemathcalO(d sqrtH3 K + sqrtHK(H + barP_K$)$ dynamic regret, ここで$d$は特徴次元である。
論文 参考訳(メタデータ) (2024-11-05T13:55:52Z) - Improved Algorithms for Contextual Dynamic Pricing [24.530341596901476]
コンテキスト動的価格設定では、売り手はコンテキスト情報に基づいて商品を順次価格設定する。
提案アルゴリズムは,$tildemathcalO(T2/3)$の最適再帰限界を達成し,既存の結果を改善する。
このモデルに対して,我々のアルゴリズムは,文脈空間の次元を$d$とする,後悔の$tildemathcalO(Td+2beta/d+3beta)$を得る。
論文 参考訳(メタデータ) (2024-06-17T08:26:51Z) - Learning in Repeated Multi-Unit Pay-As-Bid Auctions [3.6294895527930504]
本研究では,単一入札者の視点から,ペイ・アズ・バイド(PAB)オークションにおける入札戦略の問題点を考察する。
提案手法は,競合する入札が事前に知られている場合のオフライン問題を,時間アルゴリズムで解くことができることを示す。
また,PAB平衡のキャラクタリゼーションについても検討した。
論文 参考訳(メタデータ) (2023-07-27T20:49:28Z) - Dynamic Pricing and Learning with Bayesian Persuasion [18.59029578133633]
我々は,商品の価格設定に加えて,販売者が「広告計画」にコミットする,新たな動的価格設定と学習環境を考える。
我々は、バイエルンの一般的な説得フレームワークを使用して、これらのシグナルが購入者の評価と購入反応に与える影響をモデル化する。
我々は、過去の購入応答を利用して最適な価格と広告戦略を適応的に学習できるオンラインアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-04-27T17:52:06Z) - Borda Regret Minimization for Generalized Linear Dueling Bandits [65.09919504862496]
本稿では,ボルダスコアが最も高い項目を識別することを目的とした,デュエルバンディットに対するボルダ後悔最小化問題について検討する。
本稿では,多くの既存モデルをカバーする一般化線形デュエルバンドモデルのリッチクラスを提案する。
我々のアルゴリズムは$tildeO(d2/3 T2/3)$ regretを達成し、これも最適である。
論文 参考訳(メタデータ) (2023-03-15T17:59:27Z) - Fast Rate Learning in Stochastic First Price Bidding [0.0]
ファーストプライスのオークションは、プログラム広告におけるビックレーのオークションに基づく伝統的な入札アプローチを大きく置き換えている。
対戦相手の最大入札分布が分かっている場合, 後悔度を著しく低くする方法を示す。
我々のアルゴリズムは、様々な入札分布の文献で提案されている選択肢よりもはるかに高速に収束する。
論文 参考訳(メタデータ) (2021-07-05T07:48:52Z) - Certifiably Robust Interpretation via Renyi Differential Privacy [77.04377192920741]
我々はRenyi差分プライバシー(RDP)の新しい視点から解釈堅牢性の問題を研究する。
まず、証明可能で証明可能なトップ$k$ロバスト性を提供する。
第二に、提案手法は既存の手法よりも実験的堅牢性を$sim10%$で提供する。
第3に,ロバスト性と計算効率のトレードオフを円滑に行うことができる。
論文 参考訳(メタデータ) (2021-07-04T06:58:01Z) - Efficient Algorithms for Stochastic Repeated Second-price Auctions [0.0]
我々は,繰り返し競売を行うための効率的な逐次入札戦略を開発する。
この問題に対する最初のパラメトリック下界を提供する。
本稿では,探索時コミット帯域幅アルゴリズムを思い起こさせる,より説明可能な戦略を提案する。
論文 参考訳(メタデータ) (2020-11-10T12:45:02Z) - Stochastic Linear Bandits Robust to Adversarial Attacks [117.665995707568]
我々はロバスト位相除去アルゴリズムの2つの変種を提供し、その1つは$C$を知っており、もう1つはそうでない。
いずれの変種も、倒壊しない場合には、それぞれ$C = 0$ となり、それぞれ追加の加法項が生じる。
文脈的設定では、単純な欲求的アルゴリズムは、明示的な探索を行わず、C$を知らないにもかかわらず、ほぼ最適加法的後悔項で証明可能な堅牢性を示す。
論文 参考訳(メタデータ) (2020-07-07T09:00:57Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。