論文の概要: Building a Foundation for Data-Driven, Interpretable, and Robust Policy
Design using the AI Economist
- arxiv url: http://arxiv.org/abs/2108.02904v1
- Date: Fri, 6 Aug 2021 01:30:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-09 14:38:53.090651
- Title: Building a Foundation for Data-Driven, Interpretable, and Robust Policy
Design using the AI Economist
- Title(参考訳): ai経済学を用いたデータ駆動、解釈可能、ロバストなポリシー設計の基礎の構築
- Authors: Alexander Trott, Sunil Srinivasa, Douwe van der Wal, Sebastien
Haneuse, Stephan Zheng
- Abstract要約: AIエコノミストフレームワークは,2段階強化学習とデータ駆動型シミュレーションを用いて,効果的な,柔軟な,解釈可能なポリシー設計を可能にする。
RLを用いて訓練されたログリニア政策は、過去の結果と比較して、公衆衛生と経済の両面から社会福祉を著しく改善することがわかった。
- 参考スコア(独自算出の注目度): 67.08543240320756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimizing economic and public policy is critical to address socioeconomic
issues and trade-offs, e.g., improving equality, productivity, or wellness, and
poses a complex mechanism design problem. A policy designer needs to consider
multiple objectives, policy levers, and behavioral responses from strategic
actors who optimize for their individual objectives. Moreover, real-world
policies should be explainable and robust to simulation-to-reality gaps, e.g.,
due to calibration issues. Existing approaches are often limited to a narrow
set of policy levers or objectives that are hard to measure, do not yield
explicit optimal policies, or do not consider strategic behavior, for example.
Hence, it remains challenging to optimize policy in real-world scenarios. Here
we show that the AI Economist framework enables effective, flexible, and
interpretable policy design using two-level reinforcement learning (RL) and
data-driven simulations. We validate our framework on optimizing the stringency
of US state policies and Federal subsidies during a pandemic, e.g., COVID-19,
using a simulation fitted to real data. We find that log-linear policies
trained using RL significantly improve social welfare, based on both public
health and economic outcomes, compared to past outcomes. Their behavior can be
explained, e.g., well-performing policies respond strongly to changes in
recovery and vaccination rates. They are also robust to calibration errors,
e.g., infection rates that are over or underestimated. As of yet, real-world
policymaking has not seen adoption of machine learning methods at large,
including RL and AI-driven simulations. Our results show the potential of AI to
guide policy design and improve social welfare amidst the complexity of the
real world.
- Abstract(参考訳): 経済政策や公共政策の最適化は、社会経済問題やトレードオフ、例えば平等、生産性、ウェルネスの改善に不可欠であり、複雑なメカニズム設計の問題を引き起こす。
ポリシーデザイナーは、個々の目的のために最適化する戦略的なアクターから、複数の目的、ポリシーレバー、行動応答を考慮する必要がある。
さらに、現実世界のポリシーは、例えばキャリブレーションの問題により、シミュレーションと現実のギャップに対して説明可能で堅牢であるべきである。
既存のアプローチは、測定が難しい、明示的な最適方針を導き出さない、戦略的行動を考慮しない、政策レバーや目的の狭いセットに限定されることが多い。
したがって、現実のシナリオでポリシーを最適化することは依然として困難である。
ここでは,2段階強化学習(rl)とデータ駆動シミュレーションを用いて,ai economistフレームワークが効果的で柔軟で解釈可能なポリシ設計を可能にすることを示す。
我々は、新型コロナウイルス(covid-19)のパンデミックにおける米国の州政策と連邦補助金の厳格性を、実データに適合したシミュレーションを用いて最適化する枠組みを検証する。
rlを用いて訓練したログリニア政策は,公衆衛生と経済効果の両方に基づいて,過去の成果と比較して社会福祉を著しく改善することが判明した。
それらの行動は、例えば、回復率や予防接種率の変化に強く反応する良好な政策など、説明できる。
また、過小評価または過小評価される感染率など、校正エラーに対しても堅牢である。
現時点では、RLやAI駆動のシミュレーションを含む機械学習手法が広く採用されているわけではない。
この結果から,実世界の複雑さの中で,政策設計を指導し,社会福祉を改善するAIの可能性が示唆された。
関連論文リスト
- Evaluating Real-World Robot Manipulation Policies in Simulation [91.55267186958892]
実環境と模擬環境の制御と視覚的格差は、信頼性のある模擬評価の鍵となる課題である。
実環境に完全忠実なデジタル双生児を作らなくても、これらのギャップを軽減できる手法を提案する。
シミュレーション環境の集合体であるSIMPLERを作成した。
論文 参考訳(メタデータ) (2024-05-09T17:30:16Z) - Non-linear Welfare-Aware Strategic Learning [10.448052192725168]
本稿では,戦略的個人行動の存在下でのアルゴリズム的意思決定について考察する。
まず,先行研究におけるエージェントベスト応答モデルを非線形設定に一般化する。
制限条件下でのみ3つの福祉が同時に最適な状態が得られることを示す。
論文 参考訳(メタデータ) (2024-05-03T01:50:03Z) - Can Reinforcement Learning support policy makers? A preliminary study
with Integrated Assessment Models [7.1307809008103735]
統合アセスメントモデル(IAM)は、社会と経済の主な特徴とバイオスフィアを1つのモデルフレームワークに結びつける試みである。
本稿では、IAMを探索し、より原理化された方法で解の空間を探索するために、現代の強化学習が利用できることを実証的に示す。
論文 参考訳(メタデータ) (2023-12-11T17:04:30Z) - Marginalized Importance Sampling for Off-Environment Policy Evaluation [13.824507564510503]
強化学習法(Reinforcement Learning, RL)は、通常、サンプル非効率であり、実世界のロボットでRLポリティエの訓練と展開が困難である。
本稿では,エージェントポリシーを実環境にデプロイする前に,エージェントポリシーの現実的性能を評価するための新しいアプローチを提案する。
提案手法では,実世界のオフラインデータとともにシミュレータを組み込んで,任意のポリシーの性能評価を行う。
論文 参考訳(メタデータ) (2023-09-04T20:52:04Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - The AI Economist: Optimal Economic Policy Design via Two-level Deep
Reinforcement Learning [126.37520136341094]
機械学習に基づく経済シミュレーションは強力な政策・メカニズム設計の枠組みであることを示す。
AIエコノミスト(AI Economist)は、エージェントと共同適応するソーシャルプランナーの両方を訓練する2段階のディープRLフレームワークである。
単純な一段階の経済では、AIエコノミストは経済理論の最適税制を回復する。
論文 参考訳(メタデータ) (2021-08-05T17:42:35Z) - Reinforcement Learning for Optimization of COVID-19 Mitigation policies [29.4529156655747]
2020年は新型コロナウイルスの感染拡大が世界最悪の世界的なパンデミックの1つとなった。
世界中の政府は公衆衛生を保護し、経済を最大限に維持するという課題に直面している。
疫学モデルは、これらの病気の拡散に関する洞察を与え、介入政策の効果を予測する。
論文 参考訳(メタデータ) (2020-10-20T18:40:15Z) - The AI Economist: Improving Equality and Productivity with AI-Driven Tax
Policies [119.07163415116686]
我々は、経済的平等と生産性を効果的にトレードオフできる税制政策を発見する社会プランナーを訓練する。
競争圧力と市場ダイナミクスを特徴とする経済シミュレーション環境を提案する。
AI主導の税政策は、基本方針よりも平等と生産性のトレードオフを16%改善することを示します。
論文 参考訳(メタデータ) (2020-04-28T06:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。