論文の概要: Reinforcement Learning of Sequential Price Mechanisms
- arxiv url: http://arxiv.org/abs/2010.01180v2
- Date: Wed, 5 May 2021 20:01:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 01:16:16.569782
- Title: Reinforcement Learning of Sequential Price Mechanisms
- Title(参考訳): 逐次価格メカニズムの強化学習
- Authors: Gianluca Brero, Alon Eden, Matthias Gerstgrasser, David C. Parkes,
Duncan Rheingans-Yoo
- Abstract要約: 本稿では、間接的なメカニズムに強化学習を導入し、既存のシーケンシャルな価格体系のクラスで作業する。
提案手法は,複数の実験環境において最適あるいは準最適メカニズムを学習可能であることを示す。
- 参考スコア(独自算出の注目度): 24.302600030585275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the use of reinforcement learning for indirect mechanisms,
working with the existing class of sequential price mechanisms, which
generalizes both serial dictatorship and posted price mechanisms and
essentially characterizes all strongly obviously strategyproof mechanisms.
Learning an optimal mechanism within this class forms a partially-observable
Markov decision process. We provide rigorous conditions for when this class of
mechanisms is more powerful than simpler static mechanisms, for sufficiency or
insufficiency of observation statistics for learning, and for the necessity of
complex (deep) policies. We show that our approach can learn optimal or
near-optimal mechanisms in several experimental settings.
- Abstract(参考訳): 我々は,間接的メカニズムに対する強化学習の活用について紹介する。これは,逐次的価格メカニズムの既存クラスと連携し,連続的独裁とポスト価格機構の両方を一般化し,本質的には強固な戦略的防御機構を特徴付ける。
このクラス内で最適なメカニズムを学ぶことは、部分的に観測可能なマルコフ決定過程を形成する。
このようなメカニズムが単純な静的メカニズムよりも強力である場合、学習のための観測統計の不十分さや不十分性、複雑な(深い)ポリシーの必要性に対して厳密な条件を提供する。
本手法は,いくつかの実験環境で最適あるいは至近の最適機構を学習できることを示す。
関連論文リスト
- Deep Generative Model-based Synthesis of Four-bar Linkage Mechanisms
with Target Conditions [22.164394511786874]
深層学習に基づく複数クランクロックの4バーリンク機構を生成するための生成モデルを提案する。
提案モデルは, 条件付き生成逆数ネットワーク (cGAN) を基盤として, 機構合成に改良を加えたモデルである。
その結果, 提案モデルでは, 特定のキネマティックおよび準静的な要求を満たす複数の異なるメカニズムが得られた。
論文 参考訳(メタデータ) (2024-02-22T03:31:00Z) - Competition of Mechanisms: Tracing How Language Models Handle Facts and
Counterfactuals [55.23587651065376]
解釈可能性の研究は、経験的成功と大規模言語モデルの内部動作に関する科学的理解のギャップを埋めることを目的としている。
個別のメカニズムの代わりに複数のメカニズムの相互作用に焦点を当てたメカニズムの競合の定式化を提案する。
本研究は, 種々のモデル成分間の機構とその競合の痕跡を示し, 特定の機構の強度を効果的に制御する注意位置を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T17:26:51Z) - Deep Learning Meets Mechanism Design: Key Results and Some Novel
Applications [1.2661010067882734]
本稿では、関連する文献から、深層学習を用いたメカニズム設計の技術的詳細について述べる。
本稿では,3つのケーススタディにおいて,このアプローチのパワーを実証する。
論文 参考訳(メタデータ) (2024-01-11T06:09:32Z) - Near-Optimal Fair Resource Allocation for Strategic Agents without
Money: A Data-Driven Approach [20.771751014539532]
本研究では,PFをベンチマークとして,資源分割のためのフェアアロケーション機構の学習に基づく設計について検討する。
本稿では,誤レポートからユーティリティの相対的な利得を測定するメカニズムの「エクスロイタビリティ」の概念を紹介する。
提案するメカニズムであるExPF-Netは,低エクスプロイラビリティを維持しつつ,PF機構に強い近似を与えることを示す。
論文 参考訳(メタデータ) (2023-11-18T01:21:54Z) - Refined Mechanism Design for Approximately Structured Priors via Active
Regression [50.71772232237571]
我々は、大量の商品を戦略的入札者に販売する収益を最大化する販売業者の問題を考える。
この設定の最適かつほぼ最適のメカニズムは、特徴付けや計算が難しいことで有名である。
論文 参考訳(メタデータ) (2023-10-11T20:34:17Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z) - Learning Dynamic Mechanisms in Unknown Environments: A Reinforcement
Learning Approach [130.9259586568977]
本稿では,複数ラウンドの対話を通して動的ビックレー・クラーク・グローブ(VCG)機構を回復するための新しい学習アルゴリズムを提案する。
当社のアプローチの重要な貢献は、報酬のないオンライン強化学習(RL)を取り入れて、リッチな政策分野の探索を支援することである。
論文 参考訳(メタデータ) (2022-02-25T16:17:23Z) - Properties from Mechanisms: An Equivariance Perspective on Identifiable
Representation Learning [79.4957965474334]
教師なし表現学習の主な目標は、データ生成プロセスが潜在プロパティを回復するために「反転」することである。
この論文は「進化を支配するメカニズムの知識を活用して潜伏特性を識別するのか?」と問う。
我々は、可能なメカニズムの集合に関する知識が異なるため、不特定性の原因の完全な特徴づけを提供する。
論文 参考訳(メタデータ) (2021-10-29T14:04:08Z) - Learning Revenue-Maximizing Auctions With Differentiable Matching [50.62088223117716]
サンプル評価から,インセンティブに適合し,収益を最大化するオークションを大まかに学習する新しいアーキテクチャを提案する。
我々のアーキテクチャはシンクホーンアルゴリズムを用いて、ネットワークが防御的な収益最大化メカニズムを学習できるように、差別化可能な二部マッチングを実行する。
論文 参考訳(メタデータ) (2021-06-15T04:37:57Z) - Near Instance-Optimality in Differential Privacy [38.8726789833284]
古典統計理論に着想を得た差分プライバシーにおけるインスタンス最適性の概念を考案する。
また、大規模な推定値に対してインスタンス最適(もしくはほぼインスタンス最適)な逆感度機構も開発する。
論文 参考訳(メタデータ) (2020-05-16T04:53:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。