論文の概要: Scalable Neural Incentive Design with Parameterized Mean-Field Approximation
- arxiv url: http://arxiv.org/abs/2510.21442v1
- Date: Fri, 24 Oct 2025 13:18:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 06:57:23.424612
- Title: Scalable Neural Incentive Design with Parameterized Mean-Field Approximation
- Title(参考訳): パラメータ化平均場近似を用いたスケーラブルなニューラルインセンティブ設計
- Authors: Nathan Corecco, Batuhan Yardim, Vinzenz Thoma, Zebang Shen, Niao He,
- Abstract要約: 力学と報酬がリプシッツであるとき、有限$N$ ID の目標は、PMFG によって $mathscrO(frac1sqrtN)$ で近似されることを示す。
さらに、反復平衡作用素の明示的な微分を利用して勾配を効率的に計算する、随伴平均集中設計(AMID)アルゴリズムを導入する。
- 参考スコア(独自算出の注目度): 28.20524168049273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Designing incentives for a multi-agent system to induce a desirable Nash equilibrium is both a crucial and challenging problem appearing in many decision-making domains, especially for a large number of agents $N$. Under the exchangeability assumption, we formalize this incentive design (ID) problem as a parameterized mean-field game (PMFG), aiming to reduce complexity via an infinite-population limit. We first show that when dynamics and rewards are Lipschitz, the finite-$N$ ID objective is approximated by the PMFG at rate $\mathscr{O}(\frac{1}{\sqrt{N}})$. Moreover, beyond the Lipschitz-continuous setting, we prove the same $\mathscr{O}(\frac{1}{\sqrt{N}})$ decay for the important special case of sequential auctions, despite discontinuities in dynamics, through a tailored auction-specific analysis. Built on our novel approximation results, we further introduce our Adjoint Mean-Field Incentive Design (AMID) algorithm, which uses explicit differentiation of iterated equilibrium operators to compute gradients efficiently. By uniting approximation bounds with optimization guarantees, AMID delivers a powerful, scalable algorithmic tool for many-agent (large $N$) ID. Across diverse auction settings, the proposed AMID method substantially increases revenue over first-price formats and outperforms existing benchmark methods.
- Abstract(参考訳): 望ましいナッシュ均衡を誘導するマルチエージェントシステムのインセンティブを設計することは、多くの意思決定領域、特に多数のエージェントに対して決定的かつ困難な問題である。
交換可能性仮定の下で,このインセンティブ設計(ID)問題をパラメータ化平均場ゲーム(PMFG)として定式化し,無限人口制限による複雑性の低減を目指す。
最初に、力学と報酬がリプシッツであるとき、有限$N$ IDの目的は、PMFGによって$\mathscr{O}(\frac{1}{\sqrt{N}})$で近似されることを示す。
さらに、リプシッツ連続的な設定を超えて、動的に不連続であるにもかかわらず、シーケンシャルなオークションの重要な特別な場合に対して同じ$\mathscr{O}(\frac{1}{\sqrt{N}})$減衰を証明する。
このアルゴリズムでは、反復平衡演算子の明示的な微分を利用して勾配を効率的に計算する。
最適化保証と近似バウンダリを結合することにより、AMIDは、多エージェント(最大$N$)IDのための強力でスケーラブルなアルゴリズムツールを提供する。
提案手法は,多種多様なオークション設定にまたがって,第1価格方式よりも収益を著しく増加させ,既存のベンチマーク手法より優れていた。
関連論文リスト
- EVaR-Optimal Arm Identification in Bandits [7.340828059560291]
The fixed-confidence best arm identification problem in the multiarmed bandit (MAB) framework under the Entropic Value-at-Risk criterion。
論文 参考訳(メタデータ) (2025-10-06T11:49:56Z) - Near-Optimal Online Learning for Multi-Agent Submodular Coordination: Tight Approximation and Communication Efficiency [52.60557300927007]
離散部分モジュラー問題を連続的に最適化するために,$textbfMA-OSMA$アルゴリズムを提案する。
また、一様分布を混合することによりKLの発散を効果的に活用する、プロジェクションフリーな$textbfMA-OSEA$アルゴリズムも導入する。
我々のアルゴリズムは最先端OSGアルゴリズムによって提供される$(frac11+c)$-approximationを大幅に改善する。
論文 参考訳(メタデータ) (2025-02-07T15:57:56Z) - Achieving PAC Guarantees in Mechanism Design through Multi-Armed Bandits [8.013444110633223]
自動機構設計のための線形プログラム(LP)に最適解のクラスを解析的に導出する。
これらの解は、元の定式化における変数の総数よりも指数関数的に小さい基本変数の集合を用いて表すことができる。
本稿では,この用語の評価をマルチアーム・バンディット(MAB)問題に翻訳することでこの問題に対処する。
論文 参考訳(メタデータ) (2024-11-30T03:59:36Z) - Sample-Efficient Constrained Reinforcement Learning with General Parameterization [35.22742439337603]
エージェントの目標は、無限の地平線上で期待される割引報酬の和を最大化することである。
我々は,世界最適性ギャップを$epsilon$で保証し,制約違反を$epsilon$で保証するPrimal-Dual Accelerated Natural Policy Gradient (PD-ANPG)アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-05-17T08:39:05Z) - Sample-efficient Learning of Infinite-horizon Average-reward MDPs with General Function Approximation [53.17668583030862]
一般関数近似の文脈において,無限水平平均逆マルコフ決定過程(AMDP)について検討する。
最適化最適化(LOOP)と呼ばれる新しいアルゴリズムフレームワークを提案する。
我々は LOOP がサブ線形 $tildemathcalO(mathrmpoly(d, mathrmsp(V*)) sqrtTbeta )$ regret を達成することを示す。
論文 参考訳(メタデータ) (2024-04-19T06:24:22Z) - Improving Sample Efficiency of Model-Free Algorithms for Zero-Sum Markov Games [66.2085181793014]
モデルフリーのステージベースQ-ラーニングアルゴリズムはモデルベースアルゴリズムと同じ$H$依存の最適性を享受できることを示す。
本アルゴリズムは,楽観的値関数と悲観的値関数のペアとして参照値関数を更新するキーとなる新しい設計を特徴とする。
論文 参考訳(メタデータ) (2023-08-17T08:34:58Z) - Bayesian Optimization-based Combinatorial Assignment [10.73407470973258]
オークションやコースアロケーションを含むアサインドメインについて検討する。
この領域の主な課題は、バンドル空間がアイテム数で指数関数的に増加することである。
論文 参考訳(メタデータ) (2022-08-31T08:47:02Z) - Faster Algorithm and Sharper Analysis for Constrained Markov Decision
Process [56.55075925645864]
制約付き意思決定プロセス (CMDP) の問題点について検討し, エージェントは, 複数の制約を条件として, 期待される累積割引報酬を最大化することを目的とする。
新しいユーティリティ・デュアル凸法は、正規化ポリシー、双対正則化、ネステロフの勾配降下双対という3つの要素の新たな統合によって提案される。
これは、凸制約を受ける全ての複雑性最適化に対して、非凸CMDP問題が$mathcal O (1/epsilon)$の低い境界に達する最初の実演である。
論文 参考訳(メタデータ) (2021-10-20T02:57:21Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。