論文の概要: Policy Design in Long-Run Welfare Dynamics
- arxiv url: http://arxiv.org/abs/2503.00632v1
- Date: Sat, 01 Mar 2025 21:50:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:19:28.137799
- Title: Policy Design in Long-Run Welfare Dynamics
- Title(参考訳): 長寿命福祉力学における政策設計
- Authors: Jiduan Wu, Rediet Abebe, Moritz Hardt, Ana-Andreea Stoica,
- Abstract要約: 我々は、最も要求の高い政策を優先するラウルシアン政策(Rawlsian policy)と、即時福祉利益を最大化する実用政策(utilitarian policy)という2つの主要な政策枠組みの長期的ダイナミクスを分析する。
我々は、ラウルシの政策に従う介入が、たとえ後者が短期的に支配的であったとしても、長期的には実用主義政策よりも優れていることを証明している。
本研究は,福祉政策を設計・評価する上での長期的地平の検討の必要性を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 21.242427640040717
- License:
- Abstract: Improving social welfare is a complex challenge requiring policymakers to optimize objectives across multiple time horizons. Evaluating the impact of such policies presents a fundamental challenge, as those that appear suboptimal in the short run may yield significant long-term benefits. We tackle this challenge by analyzing the long-term dynamics of two prominent policy frameworks: Rawlsian policies, which prioritize those with the greatest need, and utilitarian policies, which maximize immediate welfare gains. Conventional wisdom suggests these policies are at odds, as Rawlsian policies are assumed to come at the cost of reducing the average social welfare, which their utilitarian counterparts directly optimize. We challenge this assumption by analyzing these policies in a sequential decision-making framework where individuals' welfare levels stochastically decay over time, and policymakers can intervene to prevent this decay. Under reasonable assumptions, we prove that interventions following Rawlsian policies can outperform utilitarian policies in the long run, even when the latter dominate in the short run. We characterize the exact conditions under which Rawlsian policies can outperform utilitarian policies. We further illustrate our theoretical findings using simulations, which highlight the risks of evaluating policies based solely on their short-term effects. Our results underscore the necessity of considering long-term horizons in designing and evaluating welfare policies; the true efficacy of even well-established policies may only emerge over time.
- Abstract(参考訳): 社会福祉の改善は、政策立案者が複数の時間軸を越えて目的を最適化する必要がある複雑な課題である。
このような政策の影響を評価することは、短期的に最適でないように見える政策が長期的利益をもたらすため、根本的な課題となる。
この課題は、最も要求の高い政策を優先するラウルシアン政策と、即時福祉利益を最大化する実用政策の2つの主要な政策枠組みの長期的ダイナミクスを分析することで解決される。
旧来の知恵は、これらの政策が矛盾していることを示唆しており、ルーシの政策は平均的な社会福祉を減らし、実用主義的な政策が直接最適化するコストがかかると仮定されている。
この仮定は、個人の福祉水準が時間とともに確率的に低下し、政策立案者が介入してこの崩壊を防止できるような、シーケンシャルな意思決定の枠組みで、これらの政策を分析することによって、この仮定に挑戦する。
合理的な仮定の下では、ラウルシアン政策による介入が、たとえ後者が短期的に支配的であったとしても、長期的には実用主義政策を上回ることが証明される。
我々は、ルーシの政策が実用主義政策より優れているという正確な条件を特徴づける。
さらに, 短期効果のみに基づく政策評価のリスクを明らかにするシミュレーションを用いて, 理論的知見を述べる。
以上の結果から,福祉政策の設計・評価における長期的地平の検討の必要性が浮き彫りとなった。
関連論文リスト
- On the Value of Myopic Behavior in Policy Reuse [67.37788288093299]
未知のシナリオで学習戦略を活用することは、人間の知性の基本である。
本稿では,Selectivemyopic bEhavior Control(SMEC)というフレームワークを提案する。
SMECは、事前ポリシーの共有可能な短期的行動とタスクポリシーの長期的行動を適応的に集約し、協調的な決定につながる。
論文 参考訳(メタデータ) (2023-05-28T03:59:37Z) - An Alternate Policy Gradient Estimator for Softmax Policies [36.48028448548086]
ソフトマックス政策のための新しいポリシー勾配推定器を提案する。
バンディットと古典的MDPベンチマークタスクを用いた分析と実験により,我々の推定器は政策飽和に対してより堅牢であることが示された。
論文 参考訳(メタデータ) (2021-12-22T02:01:19Z) - Building a Foundation for Data-Driven, Interpretable, and Robust Policy
Design using the AI Economist [67.08543240320756]
AIエコノミストフレームワークは,2段階強化学習とデータ駆動型シミュレーションを用いて,効果的な,柔軟な,解釈可能なポリシー設計を可能にする。
RLを用いて訓練されたログリニア政策は、過去の結果と比較して、公衆衛生と経済の両面から社会福祉を著しく改善することがわかった。
論文 参考訳(メタデータ) (2021-08-06T01:30:41Z) - Offline Policy Selection under Uncertainty [113.57441913299868]
我々は、オフラインポリシーの選択を、一定の経験データセットを与えられた政策予測のセットよりも学習の選好とみなす。
政策価値に対する信念に対する完全な分布へのアクセスは、より幅広い下流評価指標の下でより柔軟な選択アルゴリズムを可能にする。
BayesDICEが任意の下流ポリシー選択メトリックに関してポリシーのランク付けにどのように使用されるかを示します。
論文 参考訳(メタデータ) (2020-12-12T23:09:21Z) - Targeting for long-term outcomes [1.7205106391379026]
意思決定者は、長期的にのみ観察される結果を最大化するために、介入を標的にしたい場合が多い。
ここでは、欠落した長期的成果を暗示するために、統計的代理と政策学習文献に基づいて構築する。
The Boston Globeにおける2つの大規模プロアクティブチャーン管理実験に本手法を適用した。
論文 参考訳(メタデータ) (2020-10-29T18:31:17Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Efficient Evaluation of Natural Stochastic Policies in Offline
Reinforcement Learning [80.42316902296832]
行動政策から逸脱した観点から定義される自然政策の効果的な非政治的評価について検討する。
これは、ほとんどの著作が明示された政策の評価を考慮に入れている、政治外の評価に関する文献から逸脱している。
論文 参考訳(メタデータ) (2020-06-06T15:08:24Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。