Fugu-MT 論文翻訳(概要): Reinforcement Learning of Sequential Price Mechanisms

論文の概要: Reinforcement Learning of Sequential Price Mechanisms

arxiv url: http://arxiv.org/abs/2010.01180v2
Date: Wed, 5 May 2021 20:01:05 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-12 01:16:16.569782
Title: Reinforcement Learning of Sequential Price Mechanisms
Title（参考訳）: 逐次価格メカニズムの強化学習
Authors: Gianluca Brero, Alon Eden, Matthias Gerstgrasser, David C. Parkes, Duncan Rheingans-Yoo
Abstract要約: 本稿では、間接的なメカニズムに強化学習を導入し、既存のシーケンシャルな価格体系のクラスで作業する。提案手法は,複数の実験環境において最適あるいは準最適メカニズムを学習可能であることを示す。
参考スコア（独自算出の注目度）: 24.302600030585275
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce the use of reinforcement learning for indirect mechanisms, working with the existing class of sequential price mechanisms, which generalizes both serial dictatorship and posted price mechanisms and essentially characterizes all strongly obviously strategyproof mechanisms. Learning an optimal mechanism within this class forms a partially-observable Markov decision process. We provide rigorous conditions for when this class of mechanisms is more powerful than simpler static mechanisms, for sufficiency or insufficiency of observation statistics for learning, and for the necessity of complex (deep) policies. We show that our approach can learn optimal or near-optimal mechanisms in several experimental settings.
Abstract（参考訳）: 我々は,間接的メカニズムに対する強化学習の活用について紹介する。これは,逐次的価格メカニズムの既存クラスと連携し,連続的独裁とポスト価格機構の両方を一般化し,本質的には強固な戦略的防御機構を特徴付ける。このクラス内で最適なメカニズムを学ぶことは、部分的に観測可能なマルコフ決定過程を形成する。このようなメカニズムが単純な静的メカニズムよりも強力である場合、学習のための観測統計の不十分さや不十分性、複雑な(深い)ポリシーの必要性に対して厳密な条件を提供する。本手法は,いくつかの実験環境で最適あるいは至近の最適機構を学習できることを示す。

関連論文リスト

Large Language Models for Multi-Facility Location Mechanism Design [16.88708405619343]
深層学習モデルは、マルチファシリティロケーションのための戦略防御メカニズムの代替として提案されている。 LLMMechと呼ばれる新しいアプローチを導入し、大きな言語モデルを進化のフレームワークに組み込むことにより、これらの制限に対処する。実験の結果, LLM生成機構は, 既存の手作りベースラインやディープラーニングモデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2025-03-12T16:49:56Z)
Compete and Compose: Learning Independent Mechanisms for Modular World Models [57.94106862271727]
異なる環境における再利用可能な独立したメカニズムを活用するモジュール型世界モデルであるCOMETを提案する。 COMETは、コンペティションとコンポジションという2段階のプロセスを通じて、動的に変化する複数の環境でトレーニングされている。 COMETは,従来のファインタニング手法に比べて,サンプル効率が向上し,多様なオブジェクト数で新しい環境に適応できることを示す。
論文参考訳（メタデータ） (2024-04-23T15:03:37Z)
Deep Generative Model-based Synthesis of Four-bar Linkage Mechanisms with Target Conditions [22.164394511786874]
深層学習に基づく複数クランクロックの4バーリンク機構を生成するための生成モデルを提案する。提案モデルは, 条件付き生成逆数ネットワーク (cGAN) を基盤として, 機構合成に改良を加えたモデルである。その結果, 提案モデルでは, 特定のキネマティックおよび準静的な要求を満たす複数の異なるメカニズムが得られた。
論文参考訳（メタデータ） (2024-02-22T03:31:00Z)
Competition of Mechanisms: Tracing How Language Models Handle Facts and Counterfactuals [82.68757839524677]
解釈可能性研究は、経験的成功と大規模言語モデル(LLM)の科学的理解のギャップを埋めることを目的としている。本稿では,個々のメカニズムではなく,複数のメカニズムの相互作用に着目した,メカニズムの競合の定式化を提案する。本研究は, 種々のモデル成分間の機構とその競合の痕跡を示し, 特定の機構の強度を効果的に制御する注意位置を明らかにした。
論文参考訳（メタデータ） (2024-02-18T17:26:51Z)
Deep Learning Meets Mechanism Design: Key Results and Some Novel Applications [1.2661010067882734]
本稿では、関連する文献から、深層学習を用いたメカニズム設計の技術的詳細について述べる。本稿では,3つのケーススタディにおいて,このアプローチのパワーを実証する。
論文参考訳（メタデータ） (2024-01-11T06:09:32Z)
Refined Mechanism Design for Approximately Structured Priors via Active Regression [50.71772232237571]
我々は、大量の商品を戦略的入札者に販売する収益を最大化する販売業者の問題を考える。この設定の最適かつほぼ最適のメカニズムは、特徴付けや計算が難しいことで有名である。
論文参考訳（メタデータ） (2023-10-11T20:34:17Z)
Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文参考訳（メタデータ） (2022-05-05T05:44:26Z)
Properties from Mechanisms: An Equivariance Perspective on Identifiable Representation Learning [79.4957965474334]
教師なし表現学習の主な目標は、データ生成プロセスが潜在プロパティを回復するために「反転」することである。この論文は「進化を支配するメカニズムの知識を活用して潜伏特性を識別するのか?」と問う。我々は、可能なメカニズムの集合に関する知識が異なるため、不特定性の原因の完全な特徴づけを提供する。
論文参考訳（メタデータ） (2021-10-29T14:04:08Z)
Learning Revenue-Maximizing Auctions With Differentiable Matching [50.62088223117716]
サンプル評価から,インセンティブに適合し,収益を最大化するオークションを大まかに学習する新しいアーキテクチャを提案する。我々のアーキテクチャはシンクホーンアルゴリズムを用いて、ネットワークが防御的な収益最大化メカニズムを学習できるように、差別化可能な二部マッチングを実行する。
論文参考訳（メタデータ） (2021-06-15T04:37:57Z)
Near Instance-Optimality in Differential Privacy [38.8726789833284]
古典統計理論に着想を得た差分プライバシーにおけるインスタンス最適性の概念を考案する。また、大規模な推定値に対してインスタンス最適(もしくはほぼインスタンス最適)な逆感度機構も開発する。
論文参考訳（メタデータ） (2020-05-16T04:53:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。