論文の概要: Deep reinforced learning enables solving rich discrete-choice life cycle
models to analyze social security reforms
- arxiv url: http://arxiv.org/abs/2010.13471v3
- Date: Wed, 2 Feb 2022 13:37:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 20:26:07.493635
- Title: Deep reinforced learning enables solving rich discrete-choice life cycle
models to analyze social security reforms
- Title(参考訳): 深層強化学習は、社会保障改革を分析できるリッチな離散的サイクルモデルを可能にする
- Authors: Antti J. Tanskanen
- Abstract要約: ライフサイクルモデルでは、個人のライフコースにおける最適な雇用選択を解決しなければならない。
深層学習アルゴリズムACKTRと動的プログラミングが比較的単純なライフサイクルモデルをどのように解くかを比較する。
この結果から,強化学習アルゴリズムは社会保障改革において重要な意味を持つ可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Discrete-choice life cycle models of labor supply can be used to estimate how
social security reforms influence employment rate. In a life cycle model,
optimal employment choices during the life course of an individual must be
solved. Mostly, life cycle models have been solved with dynamic programming,
which is not feasible when the state space is large, as often is the case in a
realistic life cycle model. Solving a complex life cycle model requires the use
of approximate methods, such as reinforced learning algorithms. We compare how
well a deep reinforced learning algorithm ACKTR and dynamic programming solve a
relatively simple life cycle model. To analyze results, we use a selection of
statistics and also compare the resulting optimal employment choices at various
states. The statistics demonstrate that ACKTR yields almost as good results as
dynamic programming. Qualitatively, dynamic programming yields more spiked
aggregate employment profiles than ACKTR. The results obtained with ACKTR
provide a good, yet not perfect, approximation to the results of dynamic
programming. In addition to the baseline case, we analyze two social security
reforms: (1) an increase of retirement age, and (2) universal basic income. Our
results suggest that reinforced learning algorithms can be of significant value
in developing social security reforms.
- Abstract(参考訳): 労働供給の離散的選択ライフサイクルモデルを用いて、社会保障改革が雇用率に与える影響を推定することができる。
ライフサイクルモデルでは、個人のライフコースにおける最適な雇用選択を解決しなければならない。
概して、ライフサイクルモデルは動的プログラミングによって解決されてきたが、状態空間が大きい場合には実現不可能であり、現実のライフサイクルモデルの場合もそうである。
複雑なライフサイクルモデルを解くには、強化学習アルゴリズムのような近似手法を使う必要がある。
深層学習アルゴリズムACKTRと動的プログラミングが比較的単純なライフサイクルモデルをどのように解くかを比較する。
結果を分析するために、統計の選定と、様々な州における最適な雇用選択の比較を行う。
この統計は、ACKTRが動的プログラミングと同じくらい良い結果をもたらすことを示している。
質的には、動的プログラミングはacktrよりも指数関数的な雇用プロファイルをもたらす。
ACKTRで得られた結果は、動的プログラミングの結果に良いが完璧ではない。
基本事例に加えて,(1)退職年齢の増加,(2)普遍的ベーシックインカムの2つの社会保障改革について分析した。
以上の結果から,強化学習アルゴリズムは社会保障改革の発展に非常に有用であることが示唆された。
関連論文リスト
- Robust Model-Based Reinforcement Learning with an Adversarial Auxiliary Model [2.9109581496560044]
特定のマルコフ決定過程(MDP)で訓練するRLエージェントは、ほぼ同一のMDPでよく機能するのにしばしば苦労する。
我々は,ロバストMDPの枠組みをモデルベース設定に適用し,新しい学習遷移モデルを導入する。
実験結果から,高次元MuJoCo制御タスクにおけるポリシーロバスト性の顕著な改善が示唆された。
論文 参考訳(メタデータ) (2024-06-14T12:37:08Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - On the Stability-Plasticity Dilemma of Class-Incremental Learning [50.863180812727244]
クラス増分学習の第一の目的は、安定性と可塑性のバランスをとることである。
本稿では,近年のクラス増分学習アルゴリズムが,安定性と塑性のトレードオフにいかに効果的かを明らかにすることを目的とする。
論文 参考訳(メタデータ) (2023-04-04T09:34:14Z) - Learning from Demonstrations of Critical Driving Behaviours Using
Driver's Risk Field [4.272601420525791]
模倣学習(IL)は、自動運転(AV)計画モジュールのコアとして産業で広く利用されている。
これまでのIL研究は、安全クリティカルなシナリオにおけるサンプルの非効率性と低い一般化を示しており、テストされることはめったにない。
本稿では,スプライン係数のパラメータ化とオフライン専門家クエリを用いて,安全性とトレーニング効率を向上させるためのILモデルを提案する。
論文 参考訳(メタデータ) (2022-10-04T17:07:35Z) - Learning Robust Controllers Via Probabilistic Model-Based Policy Search [2.886634516775814]
このような方法で学習したコントローラが、環境の小さな摂動の下で頑健であり、一般化できるかどうかを考察する。
ガウス過程のダイナミックスモデルにおける確率雑音に対する低拘束がポリシー更新を規則化し、より堅牢なコントローラが得られることを示す。
論文 参考訳(メタデータ) (2021-10-26T11:17:31Z) - Building a Foundation for Data-Driven, Interpretable, and Robust Policy
Design using the AI Economist [67.08543240320756]
AIエコノミストフレームワークは,2段階強化学習とデータ駆動型シミュレーションを用いて,効果的な,柔軟な,解釈可能なポリシー設計を可能にする。
RLを用いて訓練されたログリニア政策は、過去の結果と比較して、公衆衛生と経済の両面から社会福祉を著しく改善することがわかった。
論文 参考訳(メタデータ) (2021-08-06T01:30:41Z) - Double Meta-Learning for Data Efficient Policy Optimization in
Non-Stationary Environments [12.45281856559346]
我々は、マルチタスク学習問題とみなすことができる非定常環境の学習モデルに興味を持っている。
モデルなし強化学習アルゴリズムは、広範囲なサンプリングを犠牲にしてマルチタスク学習において優れた性能を達成することができる。
モデルベースのアプローチは最もデータ効率のよい学習アルゴリズムの1つだが、それでも複雑なタスクやモデルの不確実性に苦慮している。
論文 参考訳(メタデータ) (2020-11-21T03:19:35Z) - Local Search for Policy Iteration in Continuous Control [23.344564466985656]
強化学習における局所的・正規化・政策改善のためのアルゴリズムを提案する。
我々のアルゴリズムは、KL正規化RLの自然な拡張として解釈できる。
モデルベースRLに起因するいくつかの利点は、単により多くの計算を利用することで、モデルなしで得られることを実証する。
論文 参考訳(メタデータ) (2020-10-12T09:02:48Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。