論文の概要: Dynamically Optimal Treatment Allocation
- arxiv url: http://arxiv.org/abs/1904.01047v5
- Date: Mon, 25 Nov 2024 17:02:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:30:58.515931
- Title: Dynamically Optimal Treatment Allocation
- Title(参考訳): 動的に最適処理の割り当て
- Authors: Karun Adusumilli, Friedrich Geiecke, Claudio Schilter,
- Abstract要約: ランダム化制御試験の既存の証拠は、パーソナライズされた決定を導くためにどのように利用できるかを示す。
近年の強化学習の進歩は、多くの複雑で現実的な問題の解決を可能にしている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Dynamic decisions are pivotal to economic policy making. We show how existing evidence from randomized control trials can be utilized to guide personalized decisions in challenging dynamic environments with budget and capacity constraints. Recent advances in reinforcement learning now enable the solution of many complex, real-world problems for the first time. We allow for restricted classes of policy functions and prove that their regret decays at rate n^(-0.5), the same as in the static case. Applying our methods to job training, we find that by exploiting the problem's dynamic structure, we achieve significantly higher welfare compared to static approaches.
- Abstract(参考訳): 動的決定は経済政策の立案に欠かせない。
予算と容量の制約のある動的環境に挑戦する上で、ランダム化制御試験から既存の証拠をいかに活用するかを示す。
近年の強化学習の進歩により、多くの複雑で現実的な問題を初めて解けるようになった。
我々は、制限されたポリシー関数のクラスを許し、彼らの後悔は、静的な場合と同様の速度 n^(-0.5) で崩壊することを証明できる。
本手法を職業訓練に適用することにより,問題の動的構造を活用すれば,静的アプローチに比べて高い福祉性が得られることがわかった。
関連論文リスト
- Solving robust MDPs as a sequence of static RL problems [28.754994235893268]
我々はIWOCSと呼ばれるメタアルゴリズムを導入し、最悪の遷移モデルを段階的に同定する。
我々は、IWOCSの深いRLバージョンを導き、古典的なベンチマークで最先端のアルゴリズムと競合することを示した。
論文 参考訳(メタデータ) (2024-10-08T17:16:24Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Solving Robust MDPs through No-Regret Dynamics [1.3597551064547502]
強化学習(Reinforcement Learning)は、エージェントがさまざまな状況をナビゲートするための強力なフレームワークである。
政策訓練法を改善するために,アルゴリズムをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2023-05-30T13:52:16Z) - Online Nonstochastic Model-Free Reinforcement Learning [35.377261344335736]
本研究では,動的あるいは敵対的な環境に対するロバストモデルロバスト性保証について検討する。
これらのポリシーを最適化するための効率的かつ効率的なアルゴリズムを提供する。
これらは状態空間に依存せず、状態空間に依存しない最もよく知られた発展である。
論文 参考訳(メタデータ) (2023-05-27T19:02:55Z) - Latent State Marginalization as a Low-cost Approach for Improving
Exploration [79.12247903178934]
我々はMaxEntフレームワークにおける潜在変数ポリシーの採用を提案する。
我々は、潜在変数ポリシーが、潜在信念状態を持つ世界モデルの下で自然に現れることを示す。
提案手法を連続制御タスクに対して実験的に検証し, 有効限界化がよりよい探索とより堅牢な訓練につながることを示した。
論文 参考訳(メタデータ) (2022-10-03T15:09:12Z) - Reinforcement Learning Policies in Continuous-Time Linear Systems [0.0]
パラメータ推定を慎重にランダムにすることで、最適行動の学習を迅速に行うオンラインポリシーを提案する。
非接触系の力学に対する鋭い安定性を証明し、準最適動作による無限小の後悔を厳密に特定する。
我々の分析は、継続的強化学習における基本的な課題に光を当て、同様の問題に対する有用な基礎となることを示唆している。
論文 参考訳(メタデータ) (2021-09-16T00:08:50Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z) - Reinforcement Learning with Fast Stabilization in Linear Dynamical
Systems [91.43582419264763]
未知の安定化線形力学系におけるモデルベース強化学習(RL)について検討する。
本研究では,環境を効果的に探索することで,基盤システムの高速安定化を証明できるアルゴリズムを提案する。
提案アルゴリズムはエージェント環境相互作用の時間ステップで$tildemathcalO(sqrtT)$ regretを達成した。
論文 参考訳(メタデータ) (2020-07-23T23:06:40Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。