Fugu-MT 論文翻訳(概要): Nash Incentive-compatible Online Mechanism Learning via Weakly Differentially Private Online Learning

論文の概要: Nash Incentive-compatible Online Mechanism Learning via Weakly Differentially Private Online Learning

arxiv url: http://arxiv.org/abs/2407.04898v1
Date: Sat, 6 Jul 2024 00:02:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-09 22:07:12.915342
Title: Nash Incentive-compatible Online Mechanism Learning via Weakly Differentially Private Online Learning
Title（参考訳）: 弱差分オンライン学習によるナッシュインセンティブ型オンラインメカニズム学習
Authors: Joon Suk Huh, Kirthevasan Kandasamy,
Abstract要約: 本研究では,複数ラウンドの機構設計問題について検討し,一組のエージェントと一組のラウンドで対話する。我々は、アプリケーション固有の目的を最大化するために、インセンティブ互換(IC)オンライン学習スキームを設計したいと考えています。
参考スコア（独自算出の注目度）: 6.869373893556194
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study a multi-round mechanism design problem, where we interact with a set of agents over a sequence of rounds. We wish to design an incentive-compatible (IC) online learning scheme to maximize an application-specific objective within a given class of mechanisms, without prior knowledge of the agents' type distributions. Even if each mechanism in this class is IC in a single round, if an algorithm naively chooses from this class on each round, the entire learning process may not be IC against non-myopic buyers who appear over multiple rounds. On each round, our method randomly chooses between the recommendation of a weakly differentially private online learning algorithm (e.g., Hedge), and a commitment mechanism which penalizes non-truthful behavior. Our method is IC and achieves $O(T^{\frac{1+h}{2}})$ regret for the application-specific objective in an adversarial setting, where $h$ quantifies the long-sightedness of the agents. When compared to prior work, our approach is conceptually simpler,it applies to general mechanism design problems (beyond auctions), and its regret scales gracefully with the size of the mechanism class.
Abstract（参考訳）: 本研究では,複数ラウンドの機構設計問題について検討し,一組のエージェントと一組のラウンドで対話する。我々は,エージェントの型分布の事前知識を必要とせずに,特定の機構のクラス内でアプリケーション固有の目的を最大化するために,インセンティブ互換(IC)オンライン学習スキームを設計したい。このクラスの各メカニズムが1ラウンドでICであっても、アルゴリズムが各ラウンドでこのクラスから中立に選択したとしても、学習プロセス全体は複数のラウンドにまたがる非明視的購入者に対してICではないかもしれない。各ラウンドにおいて,本手法は,弱微分型オンライン学習アルゴリズム(Hedgeなど)の推薦と,非実効的な行為を罰するコミットメントメカニズムとをランダムに選択する。提案手法はICであり,アプリケーション固有の目的に対して,エージェントの長時間の監視を$h$で定量化することで,アプリケーション固有の目的に対して$O(T^{\frac{1+h}{2}})の後悔を実現する。従来の作業と比較した場合,提案手法は概念的に単純であり,一般的な機構設計問題(オークション以外の)に適用できる。

関連論文リスト

LoRA-Ensemble: Efficient Uncertainty Modelling for Self-attention Networks [52.46420522934253]
本稿では,自己注意ネットワークのためのパラメータ効率の高いディープアンサンブル手法であるLoRA-Ensembleを紹介する。全メンバー間で重みを共有できる1つの事前学習型自己注意ネットワークを利用することで、注意投影のために、メンバー固有の低ランク行列を訓練する。提案手法は明示的なアンサンブルよりも優れたキャリブレーションを示し,様々な予測タスクやデータセットに対して類似あるいは良好な精度を実現する。
論文参考訳（メタデータ） (2024-05-23T11:10:32Z)
Refined Mechanism Design for Approximately Structured Priors via Active Regression [50.71772232237571]
我々は、大量の商品を戦略的入札者に販売する収益を最大化する販売業者の問題を考える。この設定の最適かつほぼ最適のメカニズムは、特徴付けや計算が難しいことで有名である。
論文参考訳（メタデータ） (2023-10-11T20:34:17Z)
Efficient Methods for Non-stationary Online Learning [67.3300478545554]
本稿では, 動的後悔と適応的後悔を最適化する効率的な手法を提案し, ラウンド当たりの投影回数を$mathcalO(log T)$から$ $1$まで削減した。本手法は,パラメータフリーオンライン学習において開発された還元機構を基礎として,非定常オンライン手法に非自明なツイストを必要とする。
論文参考訳（メタデータ） (2023-09-16T07:30:12Z)
Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文参考訳（メタデータ） (2022-05-05T05:44:26Z)
Learning Dynamic Mechanisms in Unknown Environments: A Reinforcement Learning Approach [130.9259586568977]
本稿では,複数ラウンドの対話を通して動的ビックレー・クラーク・グローブ(VCG)機構を回復するための新しい学習アルゴリズムを提案する。当社のアプローチの重要な貢献は、報酬のないオンライン強化学習(RL)を取り入れて、リッチな政策分野の探索を支援することである。
論文参考訳（メタデータ） (2022-02-25T16:17:23Z)
Socially-Optimal Mechanism Design for Incentivized Online Learning [32.55657244414989]
マルチアーム・バンディット(英: Multi-arm bandit、MAB)は、不確実な環境でのシーケンシャルな意思決定を研究する古典的なオンライン学習フレームワークである。これは、スペクトル共有、クラウドセンシング、エッジコンピューティングなど、多くのアプリケーションにおいて事実上重要なシナリオである。本稿では,このシナリオに対するインセンティブ付きオンライン学習(IOL)フレームワークを確立する。
論文参考訳（メタデータ） (2021-12-29T00:21:40Z)
Faithful Edge Federated Learning: Scalability and Privacy [4.8534377897519105]
フェデレーション学習は、ローカルデータセットの交換を必要とせずに、分散型エッジデバイスのネットワーク上で機械学習アルゴリズムをトレーニングすることを可能にする。エージェントが自発的に参加するインセンティブに、フェデレーション学習の鍵となる特徴、不均衡データおよび非i.d.データがどのように影響するかを分析する。経済性,スケーラビリティ,プライバシを満足する2つの忠実な連合学習機構を設計する。
論文参考訳（メタデータ） (2021-06-30T08:46:40Z)
Online Learning of Competitive Equilibria in Exchange Economies [94.24357018178867]
経済学では、複数の有理エージェント間の資源不足の共有は古典的な問題である。エージェントの好みを学習するためのオンライン学習機構を提案する。数値シミュレーションにより,本機構の有効性を実証する。
論文参考訳（メタデータ） (2021-06-11T21:32:17Z)
Decentralized Reinforcement Learning: Global Decision-Making via Local Economic Transactions [80.49176924360499]
我々は、シーケンシャルな意思決定問題を解決するために、単純で専門的で自己関心のあるエージェントの社会を指示する枠組みを確立する。我々は分散強化学習アルゴリズムのクラスを導出する。我々は、より効率的な移動学習のための社会固有のモジュラー構造の潜在的な利点を実証する。
論文参考訳（メタデータ） (2020-07-05T16:41:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。