論文の概要: Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2205.02450v1
- Date: Thu, 5 May 2022 05:44:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-07 03:02:45.600693
- Title: Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning
- Title(参考訳): ペシミズムがvcgと出会う - オフライン強化学習による動的メカニズム設計の学習
- Authors: Boxiang Lyu and Zhaoran Wang and Mladen Kolar and Zhuoran Yang
- Abstract要約: オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
- 参考スコア(独自算出の注目度): 114.36124979578896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic mechanism design has garnered significant attention from both
computer scientists and economists in recent years. By allowing agents to
interact with the seller over multiple rounds, where agents' reward functions
may change with time and are state dependent, the framework is able to model a
rich class of real world problems. In these works, the interaction between
agents and sellers are often assumed to follow a Markov Decision Process (MDP).
We focus on the setting where the reward and transition functions of such an
MDP are not known a priori, and we are attempting to recover the optimal
mechanism using an a priori collected data set. In the setting where the
function approximation is employed to handle large state spaces, with only mild
assumptions on the expressiveness of the function class, we are able to design
a dynamic mechanism using offline reinforcement learning algorithms. Moreover,
learned mechanisms approximately have three key desiderata: efficiency,
individual rationality, and truthfulness. Our algorithm is based on the
pessimism principle and only requires a mild assumption on the coverage of the
offline data set. To the best of our knowledge, our work provides the first
offline RL algorithm for dynamic mechanism design without assuming uniform
coverage.
- Abstract(参考訳): 近年、動的機構設計はコンピュータ科学者と経済学者の両方から大きな注目を集めている。
エージェントが複数のラウンドで売り手と対話できるようにすることで、エージェントの報酬関数は時間とともに変化し、状態に依存しているため、このフレームワークは現実世界の問題の豊富なクラスをモデル化することができる。
これらの研究において、エージェントと売り手の相互作用は、しばしばマルコフ決定プロセス(MDP)に従うと仮定される。
我々は,このようなMDPの報酬関数と遷移関数が予め分かっていないような設定に着目し,事前収集したデータセットを用いて最適なメカニズムを復元しようとしている。
関数近似を大規模状態空間の処理に用いた場合,関数クラスの表現性に対する軽度な仮定だけで,オフライン強化学習アルゴリズムを用いて動的機構を設計できる。
さらに、学習されたメカニズムは、効率性、個人の合理性、真実性という3つの重要なデシダータを持つ。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度の仮定しか必要としない。
我々の知る限り、我々の研究は、一様カバレッジを仮定することなく、動的メカニズム設計のための最初のオフラインRLアルゴリズムを提供する。
関連論文リスト
- Nash Incentive-compatible Online Mechanism Learning via Weakly Differentially Private Online Learning [6.869373893556194]
本研究では,複数ラウンドの機構設計問題について検討し,一組のエージェントと一組のラウンドで対話する。
我々は、アプリケーション固有の目的を最大化するために、インセンティブ互換(IC)オンライン学習スキームを設計したいと考えています。
論文 参考訳(メタデータ) (2024-07-06T00:02:25Z) - Refined Mechanism Design for Approximately Structured Priors via Active
Regression [50.71772232237571]
我々は、大量の商品を戦略的入札者に販売する収益を最大化する販売業者の問題を考える。
この設定の最適かつほぼ最適のメカニズムは、特徴付けや計算が難しいことで有名である。
論文 参考訳(メタデータ) (2023-10-11T20:34:17Z) - Multi-Agent Reinforcement Learning for Long-Term Network Resource
Allocation through Auction: a V2X Application [7.326507804995567]
我々は,自律エージェント間の分散意思決定として,移動エージェントの動的グループ(自動車など)からの計算タスクのオフロードを定式化する。
我々は、競争と協力のバランスをとることで、そのようなエージェントにプライベートとシステム目標の整合を動機付けるインタラクションメカニズムを設計する。
本稿では,部分的,遅延,ノイズの多い状態情報を用いて学習する,新しいマルチエージェントオンライン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T10:29:06Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Learning Dynamic Mechanisms in Unknown Environments: A Reinforcement
Learning Approach [130.9259586568977]
本稿では,複数ラウンドの対話を通して動的ビックレー・クラーク・グローブ(VCG)機構を回復するための新しい学習アルゴリズムを提案する。
当社のアプローチの重要な貢献は、報酬のないオンライン強化学習(RL)を取り入れて、リッチな政策分野の探索を支援することである。
論文 参考訳(メタデータ) (2022-02-25T16:17:23Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。