論文の概要: Online Learning for Dynamic Vickrey-Clarke-Groves Mechanism in Unknown Environments
- arxiv url: http://arxiv.org/abs/2506.19038v2
- Date: Thu, 23 Oct 2025 22:45:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 06:57:23.308632
- Title: Online Learning for Dynamic Vickrey-Clarke-Groves Mechanism in Unknown Environments
- Title(参考訳): 未知環境における動的ビックリー・クラーク・グラヴス機構のオンライン学習
- Authors: Vincent Leon, S. Rasoul Etesami,
- Abstract要約: 本研究では,未知環境におけるシーケンシャルオークションにおけるオンライン動的メカニズム設計の問題点を考察する。
我々は,販売者がマルコフ決定過程を学習するための強化学習アルゴリズムを開発した。
学習機構は, 効率, 真理性, 個々人の合理性にほぼ満足していることを示す。
- 参考スコア(独自算出の注目度): 2.2344764434954256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of online dynamic mechanism design for sequential auctions in unknown environments, where the underlying market and, thus, the bidders' values vary over time as interactions between the seller and the bidders progress. We model the sequential auctions as an infinite-horizon average-reward Markov decision process (MDP). In each round, the seller determines an allocation and sets a payment for each bidder, while each bidder receives a private reward and submits a sealed bid to the seller. The state, which represents the underlying market, evolves according to an unknown transition kernel and the seller's allocation policy without episodic resets. We first extend the Vickrey-Clarke-Groves (VCG) mechanism to sequential auctions, thereby obtaining a dynamic counterpart that preserves the desired properties: efficiency, truthfulness, and individual rationality. We then focus on the online setting and develop a reinforcement learning algorithm for the seller to learn the underlying MDP and implement a mechanism that closely resembles the dynamic VCG mechanism. We show that the learned mechanism approximately satisfies efficiency, truthfulness, and individual rationality and achieves guaranteed performance in terms of various notions of regret.
- Abstract(参考訳): 本研究では,販売者と入札者の相互作用が進行するにつれて,市場と入札者の価値が時間とともに変化する未知の環境での連続オークションにおけるオンライン動的メカニズム設計の問題点を考察する。
逐次オークションを無限水平平均回帰マルコフ決定過程(MDP)としてモデル化する。
各ラウンドにおいて、売り手は割り当てを決定し、入札者に対して支払いを設定し、一方、入札者は個人報酬を受け取り、販売者に封印された入札を提出する。
根底にある市場を表す状態は、未知のトランジションカーネルと、エピソードリセットなしで販売者のアロケーションポリシーに従って進化する。
まず、Vickrey-Clarke-Groves (VCG) メカニズムをシーケンシャルオークションに拡張し、効率性、真理性、個々人の合理性といった所望の特性を保った動的オークションを得る。
次に、オンライン設定に集中し、販売者が基盤となるMDPを学習し、動的VCGメカニズムによく似たメカニズムを実装するための強化学習アルゴリズムを開発する。
学習機構は, 効率性, 真理性, 個々人の合理性にほぼ満足し, 様々な後悔の概念で保証された性能を達成することを示す。
関連論文リスト
- Generative Large-Scale Pre-trained Models for Automated Ad Bidding Optimization [5.460538555236247]
GRAD(Generative Reward-driven Ad-bidding with Mixture-of-Experts)を提案する。
GRADはプラットフォーム収益を大幅に向上させ、現代の広告主の進化的かつ多様な要求に対処する上での有効性を強調した。
論文 参考訳(メタデータ) (2025-08-04T02:46:18Z) - Situationally-Aware Dynamics Learning [57.698553219660376]
隠れ状態表現のオンライン学習のための新しいフレームワークを提案する。
提案手法は、非観測パラメータが遷移力学と報酬構造の両方に与える影響を明示的にモデル化する。
シミュレーションと実世界の両方の実験は、データ効率、ポリシー性能、安全で適応的なナビゲーション戦略の出現を著しく改善した。
論文 参考訳(メタデータ) (2025-05-26T06:40:11Z) - Robust and Performance Incentivizing Algorithms for Multi-Armed Bandits with Strategic Agents [52.75161794035767]
性能インセンティブとロバストネスの2つの目的を同時に満たすバンディットアルゴリズムのクラスを導入する。
そこで本研究では,第2価格オークションのアイデアをアルゴリズムと組み合わせることで,プリンシパルが腕の性能特性に関する情報を持たないような設定が可能であることを示す。
論文 参考訳(メタデータ) (2023-12-13T06:54:49Z) - Refined Mechanism Design for Approximately Structured Priors via Active
Regression [50.71772232237571]
我々は、大量の商品を戦略的入札者に販売する収益を最大化する販売業者の問題を考える。
この設定の最適かつほぼ最適のメカニズムは、特徴付けや計算が難しいことで有名である。
論文 参考訳(メタデータ) (2023-10-11T20:34:17Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z) - Learning Dynamic Mechanisms in Unknown Environments: A Reinforcement Learning Approach [123.55983746427572]
本稿では,複数ラウンドの対話を通して動的ビックレー・クラーク・グローブ(VCG)機構を回復するための新しい学習アルゴリズムを提案する。
当社のアプローチの重要な貢献は、報酬のないオンライン強化学習(RL)を取り入れて、リッチな政策分野の探索を支援することである。
論文 参考訳(メタデータ) (2022-02-25T16:17:23Z) - Optimizing Multiple Performance Metrics with Deep GSP Auctions for
E-commerce Advertising [28.343122250701498]
eコマース広告では、広告プラットフォームは通常、ユーザーエクスペリエンス、広告主ユーティリティ、プラットフォーム収益など、さまざまなパフォーマンス指標を最適化するためのオークションメカニズムに依存している。
本稿では,Deep GSPオークション(Deep GSP auction)と呼ばれる新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2020-12-05T02:51:11Z) - VCG Mechanism Design with Unknown Agent Values under Stochastic Bandit
Feedback [104.06766271716774]
本研究では,エージェントが自己の価値を知らない場合に,マルチラウンドの福祉最大化機構設計問題について検討する。
まず、福祉に対する後悔の3つの概念、各エージェントの個々のユーティリティ、メカニズムの3つの概念を定義します。
当社のフレームワークは価格体系を柔軟に制御し、エージェントと販売者の後悔のトレードオフを可能にする。
論文 参考訳(メタデータ) (2020-04-19T18:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。