Fugu-MT 論文翻訳(概要): Learning Macroeconomic Policies through Dynamic Stackelberg Mean-Field Games

論文の概要: Learning Macroeconomic Policies through Dynamic Stackelberg Mean-Field Games

arxiv url: http://arxiv.org/abs/2403.12093v4
Date: Sun, 01 Jun 2025 09:18:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-03 16:22:42.696018
Title: Learning Macroeconomic Policies through Dynamic Stackelberg Mean-Field Games
Title（参考訳）: 動的スタックバーグ平均フィールドゲームによるマクロ経済政策の学習
Authors: Qirui Mi, Zhiyu Zhao, Chengdong Ma, Siyu Xia, Yan Song, Mengyue Yang, Jun Wang, Haifeng Zhang,
Abstract要約: 政府(リーダー)はポリシーを設定し、エージェント(フォロワー)は時間とともに彼らの行動を最適化することで対応します。エージェントの数が増加するにつれて、エージェントエージェントとエージェントの相互作用を明示的にシミュレートすることは、計算的に不可能になる。エージェント・ポピュレーションと政府・ポピュレーションの結合による複雑な相互作用を近似する動的スタックバーグ平均場ゲームフレームワークを提案する。
参考スコア（独自算出の注目度）: 14.341143540616441
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Macroeconomic outcomes emerge from individuals' decisions, making it essential to model how agents interact with macro policy via consumption, investment, and labor choices. We formulate this as a dynamic Stackelberg game: the government (leader) sets policies, and agents (followers) respond by optimizing their behavior over time. Unlike static models, this dynamic formulation captures temporal dependencies and strategic feedback critical to policy design. However, as the number of agents increases, explicitly simulating all agent-agent and agent-government interactions becomes computationally infeasible. To address this, we propose the Dynamic Stackelberg Mean Field Game (DSMFG) framework, which approximates these complex interactions via agent-population and government-population couplings. This approximation preserves individual-level feedback while ensuring scalability, enabling DSMFG to jointly model three core features of real-world policymaking: dynamic feedback, asymmetry, and large scale. We further introduce Stackelberg Mean Field Reinforcement Learning (SMFRL), a data-driven algorithm that learns the leader's optimal policies while maintaining personalized responses for individual agents. Empirically, we validate our approach in a large-scale simulated economy, where it scales to 1,000 agents (vs. 100 in prior work) and achieves a fourfold increase in GDP over classical economic methods and a nineteenfold improvement over the static 2022 U.S. federal income tax policy.
Abstract（参考訳）: マクロ経済の結果は個人の決定から生じ、エージェントが消費、投資、労働選択を通じてマクロ政策とどのように相互作用するかをモデル化することが不可欠である。政府(リーダー)はポリシーを設定し、エージェント(フォロワー)は時間とともに彼らの行動を最適化することで対応します。静的モデルとは異なり、この動的定式化はポリシー設計に不可欠な時間的依存関係と戦略的フィードバックをキャプチャする。しかし、エージェントの数が増加するにつれて、エージェントエージェントとエージェント政府間の相互作用を明示的にシミュレートすることは不可能となる。そこで本稿では,エージェント・ポピュレーションと政府・ポピュレーション・カップリングによる複雑な相互作用を近似する動的スタックバーグ平均場ゲーム(DSMFG)フレームワークを提案する。この近似は、スケーラビリティを確保しながら個々のレベルのフィードバックを保存し、DSMFGが現実世界の政策決定の3つの中核的な特徴(動的フィードバック、非対称性、大規模)を共同でモデル化できるようにする。データ駆動型アルゴリズムであるStackelberg Mean Field Reinforcement Learning (SMFRL)についても紹介する。実証的に、我々のアプローチを大規模な模擬経済において検証し、1000人のエージェント(前処理で100人以上)に規模を拡大し、古典的な経済手法よりもGDPが4倍増加し、2022年米連邦所得税政策よりも19倍改善した。

関連論文リスト

Action Dependency Graphs for Globally Optimal Coordinated Reinforcement Learning [0.0]
行動依存型個別政策は多エージェント強化学習におけるグローバルな最適性を達成するための有望なパラダイムとして浮上している。本研究では、必ずしも自己回帰形式に従わない、より一般化された行動依存型ポリシーを考察する。協調グラフによって構成されたMARL問題の文脈内では、疎ADGを用いた行動依存ポリシーがグローバルな最適性を達成することが証明される。
論文参考訳（メタデータ） (2025-06-01T02:58:20Z)
AgentRM: Enhancing Agent Generalization with Reward Modeling [78.52623118224385]
報酬モデルを微調整して政策モデルを導くことは、政策モデルを直接微調整するよりも、より堅牢であることがわかった。本稿では,効率的なテスト時間探索のためのポリシーモデルを導出するために,一般化可能な報酬モデルであるAgentRMを提案する。
論文参考訳（メタデータ） (2025-02-25T17:58:02Z)
STEER-ME: Assessing the Microeconomic Reasoning of Large Language Models [8.60556939977361]
マイクロエコノミック推論のための大規模言語モデル(LLM)を評価するためのベンチマークを開発する。供給と需要のロジックに重点を置いており、それぞれが最大10ドルドメイン、5ドルパースペクティブ、3ドルタイプで構成されています。我々は,小規模なオープンソースモデルから最先端技術まで,27ドルのLLMのケーススタディを通じて,我々のベンチマークの有用性を実証する。
論文参考訳（メタデータ） (2025-02-18T18:42:09Z)
A Multi-agent Market Model Can Explain the Impact of AI Traders in Financial Markets -- A New Microfoundations of GARCH model [3.655221783356311]
本稿では,ノイズトレーダー,基本トレーダー,AIトレーダーの3種類のエージェントを組み込んだマルチエージェント市場モデルを提案する。我々は,このモデルをマルチエージェントシミュレーションにより検証し,金融市場のスタイル化された事実を再現する能力を確認した。
論文参考訳（メタデータ） (2024-09-19T07:14:13Z)
Evaluating Real-World Robot Manipulation Policies in Simulation [91.55267186958892]
実環境と模擬環境の制御と視覚的格差は、信頼性のある模擬評価の鍵となる課題である。実環境に完全忠実なデジタル双生児を作らなくても、これらのギャップを軽減できる手法を提案する。シミュレーション環境の集合体であるSIMPLERを作成した。
論文参考訳（メタデータ） (2024-05-09T17:30:16Z)
Simulating the Economic Impact of Rationality through Reinforcement Learning and Agent-Based Modelling [1.7546137756031712]
我々はエージェントベースモデル(ABM)の能力を拡大するためにマルチエージェント強化学習(RL)を活用している。 RLエージェントは、市場競争のレベルと合理性に応じて、利益を最大化するための3つの異なる戦略を自発的に学習することを示します。また、独立した政策を持つRLエージェントと、相互にコミュニケーションする能力のないエージェントは、自発的に異なる戦略グループに分離することを学び、市場力と全体的な利益を増大させます。
論文参考訳（メタデータ） (2024-05-03T15:08:25Z)
Blending Data-Driven Priors in Dynamic Games [9.085463548798366]
Kullback-Leibler (KL) 正規化による非協調的ダイナミックゲームの解法を定式化する。我々は,KLGameのNash平衡戦略を,マルチモーダル近似フィードバックをリアルタイムに計算するための効率的なアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-02-21T23:22:32Z)
Structured Dynamic Pricing: Optimal Regret in a Global Shrinkage Model [50.06663781566795]
消費者の嗜好と価格感が時間とともに変化する動的モデルを考える。我々は,モデルパラメータの順序を事前に把握している透視者と比較して,収益損失が予想される,後悔による動的価格政策の性能を計測する。提案した政策の最適性を示すだけでなく,政策立案のためには,利用可能な構造情報を組み込むことが不可欠であることを示す。
論文参考訳（メタデータ） (2023-03-28T00:23:23Z)
Finding Regularized Competitive Equilibria of Heterogeneous Agent Macroeconomic Models with Reinforcement Learning [151.03738099494765]
労働市場に参入する世帯や企業を無限に数える異種エージェントマクロ経済モデルについて検討する。本稿では,モデルの正規化競争均衡を求めるデータ駆動強化学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-02-24T17:16:27Z)
Towards a more efficient computation of individual attribute and policy contribution for post-hoc explanation of cooperative multi-agent systems using Myerson values [0.0]
チームにおけるエージェントのグローバルな重要性の定量的評価は、ストラテジスト、意思決定者、スポーツコーチにとって、金と同じくらいの価値がある。マルチエージェントシステムにおけるエージェントのポリシーと特徴の階層的知識グラフを決定する手法を提案する。提案手法を,Deep Reinforcement Learningを通じて得られたハードコードされたポリシーとポリシーの両方をデプロイする実例実証環境で検証する。
論文参考訳（メタデータ） (2022-12-06T15:15:00Z)
Latent State Marginalization as a Low-cost Approach for Improving Exploration [79.12247903178934]
我々はMaxEntフレームワークにおける潜在変数ポリシーの採用を提案する。我々は、潜在変数ポリシーが、潜在信念状態を持つ世界モデルの下で自然に現れることを示す。提案手法を連続制御タスクに対して実験的に検証し, 有効限界化がよりよい探索とより堅牢な訓練につながることを示した。
論文参考訳（メタデータ） (2022-10-03T15:09:12Z)
Weak Supervision in Analysis of News: Application to Economic Policy Uncertainty [0.0]
我々の研究は、経済政策の不確実性(EPU)を測定するためのテキストデータ、特にニュース作品の可能性の研究に焦点を当てている。経済政策の不確実性は、新しい政策と将来の経済基本の下で、決定の結果を予測できないと定義されている。本研究は、経済政策の不確実性に関して、ニュース記事の分類を弱くする機械学習ベースのソリューションを提案する。
論文参考訳（メタデータ） (2022-08-10T09:08:29Z)
Finding General Equilibria in Many-Agent Economic Simulations Using Deep Reinforcement Learning [72.23843557783533]
本研究では,エージェント種別のメタゲームに対して,エプシロン・ナッシュ平衡である安定解を求めることができることを示す。私たちのアプローチはより柔軟で、例えば市場クリア化のような非現実的な仮定は必要ありません。当社のアプローチは、実際のビジネスサイクルモデル、DGEモデルの代表的なファミリー、100人の労働者消費者、10社の企業、税金と再分配を行う政府で実証しています。
論文参考訳（メタデータ） (2022-01-03T17:00:17Z)
Building a Foundation for Data-Driven, Interpretable, and Robust Policy Design using the AI Economist [67.08543240320756]
AIエコノミストフレームワークは,2段階強化学習とデータ駆動型シミュレーションを用いて,効果的な,柔軟な,解釈可能なポリシー設計を可能にする。 RLを用いて訓練されたログリニア政策は、過去の結果と比較して、公衆衛生と経済の両面から社会福祉を著しく改善することがわかった。
論文参考訳（メタデータ） (2021-08-06T01:30:41Z)
The AI Economist: Optimal Economic Policy Design via Two-level Deep Reinforcement Learning [126.37520136341094]
機械学習に基づく経済シミュレーションは強力な政策・メカニズム設計の枠組みであることを示す。 AIエコノミスト(AI Economist)は、エージェントと共同適応するソーシャルプランナーの両方を訓練する2段階のディープRLフレームワークである。単純な一段階の経済では、AIエコノミストは経済理論の最適税制を回復する。
論文参考訳（メタデータ） (2021-08-05T17:42:35Z)
ERMAS: Becoming Robust to Reward Function Sim-to-Real Gaps in Multi-Agent Simulations [110.72725220033983]
Epsilon-Robust Multi-Agent Simulation (ERMAS)は、このようなマルチエージェントのsim-to-realギャップに対して堅牢なAIポリシーを学ぶためのフレームワークである。 ERMASは、エージェントリスク回避の変化に対して堅牢な税政策を学び、複雑な時間シミュレーションで最大15%社会福祉を改善する。特に、ERMASは、エージェントリスク回避の変化に対して堅牢な税制政策を学び、複雑な時間シミュレーションにおいて、社会福祉を最大15%改善する。
論文参考訳（メタデータ） (2021-06-10T04:32:20Z)
MPC-based Reinforcement Learning for Economic Problems with Application to Battery Storage [0.0]
モデル予測制御(MPC)に基づく政策近似に焦点を当てます。政策勾配法は,政策が(ほぼ)バンバン構造を持つ場合,政策パラメータに意味のあるステップを生じさせることに苦慮する。本稿では,内点法に基づくホモトピー戦略を提案し,学習中に方針を緩和する。
論文参考訳（メタデータ） (2021-04-06T10:37:14Z)
Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field Control/Game in Continuous Time [109.06623773924737]
線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。線形速度で最適解に収束し, 合成シミュレーションにより検証した。
論文参考訳（メタデータ） (2020-08-16T06:34:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。