論文の概要: Reinforcement Learning of Sequential Price Mechanisms
- arxiv url: http://arxiv.org/abs/2010.01180v2
- Date: Wed, 5 May 2021 20:01:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 01:16:16.569782
- Title: Reinforcement Learning of Sequential Price Mechanisms
- Title(参考訳): 逐次価格メカニズムの強化学習
- Authors: Gianluca Brero, Alon Eden, Matthias Gerstgrasser, David C. Parkes,
Duncan Rheingans-Yoo
- Abstract要約: 本稿では、間接的なメカニズムに強化学習を導入し、既存のシーケンシャルな価格体系のクラスで作業する。
提案手法は,複数の実験環境において最適あるいは準最適メカニズムを学習可能であることを示す。
- 参考スコア(独自算出の注目度): 24.302600030585275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the use of reinforcement learning for indirect mechanisms,
working with the existing class of sequential price mechanisms, which
generalizes both serial dictatorship and posted price mechanisms and
essentially characterizes all strongly obviously strategyproof mechanisms.
Learning an optimal mechanism within this class forms a partially-observable
Markov decision process. We provide rigorous conditions for when this class of
mechanisms is more powerful than simpler static mechanisms, for sufficiency or
insufficiency of observation statistics for learning, and for the necessity of
complex (deep) policies. We show that our approach can learn optimal or
near-optimal mechanisms in several experimental settings.
- Abstract(参考訳): 我々は,間接的メカニズムに対する強化学習の活用について紹介する。これは,逐次的価格メカニズムの既存クラスと連携し,連続的独裁とポスト価格機構の両方を一般化し,本質的には強固な戦略的防御機構を特徴付ける。
このクラス内で最適なメカニズムを学ぶことは、部分的に観測可能なマルコフ決定過程を形成する。
このようなメカニズムが単純な静的メカニズムよりも強力である場合、学習のための観測統計の不十分さや不十分性、複雑な(深い)ポリシーの必要性に対して厳密な条件を提供する。
本手法は,いくつかの実験環境で最適あるいは至近の最適機構を学習できることを示す。
関連論文リスト
- Compete and Compose: Learning Independent Mechanisms for Modular World Models [57.94106862271727]
異なる環境における再利用可能な独立したメカニズムを活用するモジュール型世界モデルであるCOMETを提案する。
COMETは、コンペティションとコンポジションという2段階のプロセスを通じて、動的に変化する複数の環境でトレーニングされている。
COMETは,従来のファインタニング手法に比べて,サンプル効率が向上し,多様なオブジェクト数で新しい環境に適応できることを示す。
論文 参考訳(メタデータ) (2024-04-23T15:03:37Z) - Deep Generative Model-based Synthesis of Four-bar Linkage Mechanisms
with Target Conditions [22.164394511786874]
深層学習に基づく複数クランクロックの4バーリンク機構を生成するための生成モデルを提案する。
提案モデルは, 条件付き生成逆数ネットワーク (cGAN) を基盤として, 機構合成に改良を加えたモデルである。
その結果, 提案モデルでは, 特定のキネマティックおよび準静的な要求を満たす複数の異なるメカニズムが得られた。
論文 参考訳(メタデータ) (2024-02-22T03:31:00Z) - Competition of Mechanisms: Tracing How Language Models Handle Facts and Counterfactuals [82.68757839524677]
解釈可能性研究は、経験的成功と大規模言語モデル(LLM)の科学的理解のギャップを埋めることを目的としている。
本稿では,個々のメカニズムではなく,複数のメカニズムの相互作用に着目した,メカニズムの競合の定式化を提案する。
本研究は, 種々のモデル成分間の機構とその競合の痕跡を示し, 特定の機構の強度を効果的に制御する注意位置を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T17:26:51Z) - Deep Learning Meets Mechanism Design: Key Results and Some Novel
Applications [1.2661010067882734]
本稿では、関連する文献から、深層学習を用いたメカニズム設計の技術的詳細について述べる。
本稿では,3つのケーススタディにおいて,このアプローチのパワーを実証する。
論文 参考訳(メタデータ) (2024-01-11T06:09:32Z) - Refined Mechanism Design for Approximately Structured Priors via Active
Regression [50.71772232237571]
我々は、大量の商品を戦略的入札者に販売する収益を最大化する販売業者の問題を考える。
この設定の最適かつほぼ最適のメカニズムは、特徴付けや計算が難しいことで有名である。
論文 参考訳(メタデータ) (2023-10-11T20:34:17Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z) - Properties from Mechanisms: An Equivariance Perspective on Identifiable
Representation Learning [79.4957965474334]
教師なし表現学習の主な目標は、データ生成プロセスが潜在プロパティを回復するために「反転」することである。
この論文は「進化を支配するメカニズムの知識を活用して潜伏特性を識別するのか?」と問う。
我々は、可能なメカニズムの集合に関する知識が異なるため、不特定性の原因の完全な特徴づけを提供する。
論文 参考訳(メタデータ) (2021-10-29T14:04:08Z) - Learning Revenue-Maximizing Auctions With Differentiable Matching [50.62088223117716]
サンプル評価から,インセンティブに適合し,収益を最大化するオークションを大まかに学習する新しいアーキテクチャを提案する。
我々のアーキテクチャはシンクホーンアルゴリズムを用いて、ネットワークが防御的な収益最大化メカニズムを学習できるように、差別化可能な二部マッチングを実行する。
論文 参考訳(メタデータ) (2021-06-15T04:37:57Z) - Near Instance-Optimality in Differential Privacy [38.8726789833284]
古典統計理論に着想を得た差分プライバシーにおけるインスタンス最適性の概念を考案する。
また、大規模な推定値に対してインスタンス最適(もしくはほぼインスタンス最適)な逆感度機構も開発する。
論文 参考訳(メタデータ) (2020-05-16T04:53:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。