Fugu-MT 論文翻訳(概要): Online Learning for Dynamic Vickrey-Clarke-Groves Mechanism in Sequential Auctions under Unknown Environments

論文の概要: Online Learning for Dynamic Vickrey-Clarke-Groves Mechanism in Sequential Auctions under Unknown Environments

arxiv url: http://arxiv.org/abs/2506.19038v1
Date: Mon, 23 Jun 2025 18:52:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-25 19:48:23.348689
Title: Online Learning for Dynamic Vickrey-Clarke-Groves Mechanism in Sequential Auctions under Unknown Environments
Title（参考訳）: 未知環境下でのシークエンシャルオークションにおける動的ビックリー・クラーク・グラブのオンライン学習
Authors: Vincent Leon, S. Rasoul Etesami,
Abstract要約: 本研究では,未知環境におけるシーケンシャルオークションにおけるオンライン動的メカニズム設計の問題点を考察する。我々は,販売者が基礎となるMDPモデルを学習するためのオンライン強化学習アルゴリズムを開発した。学習したオンラインメカニズムは, 任意の確率で効率, 真理性, 合理性を実現し, 様々な後悔の概念で性能を保証できることを示す。
参考スコア（独自算出の注目度）: 0.9208007322096533
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider the problem of online dynamic mechanism design for sequential auctions in unknown environments, where the underlying market and, thus, the bidders' values vary over time as interactions between the seller and the bidders progress. We model the sequential auctions as an infinite-horizon average-reward Markov decision process (MDP), where the transition kernel and reward functions are unknown to the seller. In each round, the seller determines an allocation and a payment for each bidder. Each bidder receives a private reward and submits a sealed bid to the seller. The state, which represents the underlying market, evolves according to an unknown transition kernel and the seller's allocation policy. Unlike existing works that formulate the problem as a multi-armed bandit model or as an episodic MDP, where the environment resets to an initial state after each round or episode, our paper considers a more realistic and sophisticated setting in which the market continues to evolve without restarting. We first extend the Vickrey-Clarke-Groves (VCG) mechanism, which is known to be efficient, truthful, and individually rational for one-shot static auctions, to sequential auctions, thereby obtaining a dynamic VCG mechanism counterpart that preserves these desired properties. We then focus on the online setting and develop an online reinforcement learning algorithm for the seller to learn the underlying MDP model and implement a mechanism that closely resembles the dynamic VCG mechanism. We show that the learned online mechanism asymptotically converges to a dynamic mechanism that approximately satisfies efficiency, truthfulness, and individual rationality with arbitrarily high probability and achieves guaranteed performance in terms of various notions of regret.
Abstract（参考訳）: 本研究では,販売者と入札者の相互作用が進行するにつれて,市場と入札者の価値が時間とともに変化する未知の環境での連続オークションにおけるオンライン動的メカニズム設計の問題点を考察する。逐次オークションを,遷移カーネルと報酬関数が販売者に未知な無限水平平均回帰マルコフ決定プロセス(MDP)としてモデル化する。各ラウンドにおいて、売り手は各入札者に対する割り当てと支払いを決定する。各入札者は個人報酬を受け取り、販売者に封印された入札を提出する。根底にある市場を表す状態は、未知の遷移カーネルと売り手の割り当てポリシーに従って進化する。マルチアームバンディットモデルやエピソード毎に環境が初期状態にリセットされるエピソディックMDPとしてこの問題を定式化している既存の作業とは異なり,本論文では,市場が再起動することなく進化し続ける,より現実的で洗練された環境について検討する。まず,1ショットの静的オークションにおいて効率,真理,個々に合理的であることが知られているVickrey-Clarke-Groves(VCG)機構を逐次オークションに拡張し,これらの特性を保存する動的VCG機構を得る。次に、オンライン設定に集中し、販売者が基礎となるMDPモデルを学習し、動的VCGメカニズムによく似たメカニズムを実装するためのオンライン強化学習アルゴリズムを開発する。学習したオンラインメカニズムは, 効率, 真理性, 個人合理性にほぼ満足する動的なメカニズムに漸近的に収束し, 様々な後悔の概念で保証された性能を達成することを示す。

関連論文リスト

Generative Large-Scale Pre-trained Models for Automated Ad Bidding Optimization [5.460538555236247]
GRAD(Generative Reward-driven Ad-bidding with Mixture-of-Experts)を提案する。 GRADはプラットフォーム収益を大幅に向上させ、現代の広告主の進化的かつ多様な要求に対処する上での有効性を強調した。
論文参考訳（メタデータ） (2025-08-04T02:46:18Z)
Situationally-Aware Dynamics Learning [57.698553219660376]
隠れ状態表現のオンライン学習のための新しいフレームワークを提案する。提案手法は、非観測パラメータが遷移力学と報酬構造の両方に与える影響を明示的にモデル化する。シミュレーションと実世界の両方の実験は、データ効率、ポリシー性能、安全で適応的なナビゲーション戦略の出現を著しく改善した。
論文参考訳（メタデータ） (2025-05-26T06:40:11Z)
Online Auction Design Using Distribution-Free Uncertainty Quantification with Applications to E-Commerce [6.241187362917031]
コンフォーマルオンラインオークションデザイン(COAD, Conformal Online Auction Design, コンフォーマルオンラインオークションデザイン)は, 既知分布に依存しない入札値の不確実性を定量化し, 収益を最大化するメカニズムである。 COADには入札者とアイテムの両方の機能が含まれており、過去のデータを使ってオンラインオークションのインセンティブに適合するメカニズムを設計している。我々は,現実のeBayオークションデータへのアプリケーションを通して,COADの実践的有効性を示す。
論文参考訳（メタデータ） (2024-05-11T15:28:25Z)
Automated Deterministic Auction Design with Objective Decomposition [31.918952529696885]
本稿では,VVCA(Virtual Valuations Combinatorial Auctions)の自動設計のための客観的分解手法であるOD-VVCAを紹介する。並列化可能な動的プログラミングアルゴリズムを用いて、VVCAの割り当てと収益の効率よく計算する。次に、収益目標関数を連続的かつ一括的に不連続なコンポーネントに分解し、それぞれを異なる手法で最適化する。
論文参考訳（メタデータ） (2024-02-19T07:45:04Z)
Robust and Performance Incentivizing Algorithms for Multi-Armed Bandits with Strategic Agents [52.75161794035767]
性能インセンティブとロバストネスの2つの目的を同時に満たすバンディットアルゴリズムのクラスを導入する。そこで本研究では,第2価格オークションのアイデアをアルゴリズムと組み合わせることで,プリンシパルが腕の性能特性に関する情報を持たないような設定が可能であることを示す。
論文参考訳（メタデータ） (2023-12-13T06:54:49Z)
Refined Mechanism Design for Approximately Structured Priors via Active Regression [50.71772232237571]
我々は、大量の商品を戦略的入札者に販売する収益を最大化する販売業者の問題を考える。この設定の最適かつほぼ最適のメカニズムは、特徴付けや計算が難しいことで有名である。
論文参考訳（メタデータ） (2023-10-11T20:34:17Z)
Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文参考訳（メタデータ） (2022-05-05T05:44:26Z)
Learning Dynamic Mechanisms in Unknown Environments: A Reinforcement Learning Approach [123.55983746427572]
本稿では,複数ラウンドの対話を通して動的ビックレー・クラーク・グローブ(VCG)機構を回復するための新しい学習アルゴリズムを提案する。当社のアプローチの重要な貢献は、報酬のないオンライン強化学習(RL)を取り入れて、リッチな政策分野の探索を支援することである。
論文参考訳（メタデータ） (2022-02-25T16:17:23Z)
Optimizing Multiple Performance Metrics with Deep GSP Auctions for E-commerce Advertising [28.343122250701498]
eコマース広告では、広告プラットフォームは通常、ユーザーエクスペリエンス、広告主ユーティリティ、プラットフォーム収益など、さまざまなパフォーマンス指標を最適化するためのオークションメカニズムに依存している。本稿では,Deep GSPオークション(Deep GSP auction)と呼ばれる新しいメカニズムを提案する。
論文参考訳（メタデータ） (2020-12-05T02:51:11Z)
Certifying Strategyproof Auction Networks [53.37051312298459]
我々は、任意の数のアイテムと参加者でオークションを表現できるRegretNetアーキテクチャに焦点を当てる。本稿では,ニューラルネットワーク検証文献から得られた手法を用いて,特定の評価プロファイルの下で戦略の安全性を明示的に検証する方法を提案する。
論文参考訳（メタデータ） (2020-06-15T20:22:48Z)
VCG Mechanism Design with Unknown Agent Values under Stochastic Bandit Feedback [104.06766271716774]
本研究では,エージェントが自己の価値を知らない場合に,マルチラウンドの福祉最大化機構設計問題について検討する。まず、福祉に対する後悔の3つの概念、各エージェントの個々のユーティリティ、メカニズムの3つの概念を定義します。当社のフレームワークは価格体系を柔軟に制御し、エージェントと販売者の後悔のトレードオフを可能にする。
論文参考訳（メタデータ） (2020-04-19T18:00:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。