論文の概要: Can Reinforcement Learning support policy makers? A preliminary study
with Integrated Assessment Models
- arxiv url: http://arxiv.org/abs/2312.06527v1
- Date: Mon, 11 Dec 2023 17:04:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 14:55:35.041853
- Title: Can Reinforcement Learning support policy makers? A preliminary study
with Integrated Assessment Models
- Title(参考訳): 強化学習は政策立案を支援するか?
総合評価モデルによる予備的研究
- Authors: Theodore Wolf and Nantas Nardelli and John Shawe-Taylor and Maria
Perez-Ortiz
- Abstract要約: 統合アセスメントモデル(IAM)は、社会と経済の主な特徴とバイオスフィアを1つのモデルフレームワークに結びつける試みである。
本稿では、IAMを探索し、より原理化された方法で解の空間を探索するために、現代の強化学習が利用できることを実証的に示す。
- 参考スコア(独自算出の注目度): 7.1307809008103735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Governments around the world aspire to ground decision-making on evidence.
Many of the foundations of policy making - e.g. sensing patterns that relate to
societal needs, developing evidence-based programs, forecasting potential
outcomes of policy changes, and monitoring effectiveness of policy programs -
have the potential to benefit from the use of large-scale datasets or
simulations together with intelligent algorithms. These could, if designed and
deployed in a way that is well grounded on scientific evidence, enable a more
comprehensive, faster, and rigorous approach to policy making. Integrated
Assessment Models (IAM) is a broad umbrella covering scientific models that
attempt to link main features of society and economy with the biosphere into
one modelling framework. At present, these systems are probed by policy makers
and advisory groups in a hypothesis-driven manner. In this paper, we
empirically demonstrate that modern Reinforcement Learning can be used to probe
IAMs and explore the space of solutions in a more principled manner. While the
implication of our results are modest since the environment is simplistic, we
believe that this is a stepping stone towards more ambitious use cases, which
could allow for effective exploration of policies and understanding of their
consequences and limitations.
- Abstract(参考訳): 世界中の政府は、証拠に関する決定を下そうとしている。
政策作成の基礎には、例えば、社会的ニーズに関連するパターンの認識、エビデンスベースのプログラムの開発、政策変更の潜在的成果の予測、政策プログラムの有効性の監視などがあり、大規模なデータセットやシミュレーションをインテリジェントアルゴリズムと共に活用することで利益を得る可能性がある。
科学的証拠にしっかりと根ざした方法で設計され、展開されれば、より包括的で、より速く、厳密な政策決定のアプローチが可能になる。
統合アセスメントモデル(iam)は、社会と経済の主な特徴と生物圏を一つのモデリングフレームワークに結びつけようとする科学モデルをカバーする幅広い傘である。
現在、これらのシステムは政策立案者や諮問グループによって仮説駆動方式で調査されている。
本稿では,最近の強化学習を用いて,iamを探索し,解の空間をより原理的に探索できることを実証的に示す。
環境がシンプルであることから、結果の含意は控えめだが、これはより野心的なユースケースへの一歩であり、政策の効果的な探索と、その結果と限界の理解を可能にするものだと考えています。
関連論文リスト
- Large Legislative Models: Towards Efficient AI Policymaking in Economic Simulations [4.153442346657272]
AIポリシー作成は、大規模にデータを処理する能力を通じて、人間のパフォーマンスを上回る可能性を秘めている。
既存のRLベースの手法では、サンプルの非効率性が示され、意思決定プロセスにニュアンス情報を柔軟に組み込むことができないことにより、さらに制限される。
本稿では,事前学習された大規模言語モデル(LLM)を,サンプル効率のよい政策立案者として利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T20:04:58Z) - Building Understandable Messaging for Policy and Evidence Review (BUMPER) with AI [0.3495246564946556]
BUMPER(Building Understandable Messaging for Policy and Evidence Review)において,大規模言語モデル(LLM)を使用するためのフレームワークを導入する。
LLMは多様なメディアの大規模なデータベースを理解し合成するためのインタフェースを提供することができる。
この枠組みは、政策立案者に対する科学的証拠のアクセシビリティと信頼性を促進することができると我々は主張する。
論文 参考訳(メタデータ) (2024-06-27T05:03:03Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Counterfactual Explanation Policies in RL [3.674863913115432]
COUNTERPOLは、反実的説明を用いて強化学習ポリシーを分析する最初のフレームワークである。
RLにおけるCounterpolと広く利用されている信頼領域ベースのポリシー最適化手法の理論的関係を確立する。
論文 参考訳(メタデータ) (2023-07-25T01:14:56Z) - Dual policy as self-model for planning [71.73710074424511]
エージェントの自己モデルとして決定をシミュレートするために使用されるモデルについて述べる。
現在の強化学習アプローチと神経科学にインスパイアされた我々は、蒸留政策ネットワークを自己モデルとして利用することの利点と限界を探求する。
論文 参考訳(メタデータ) (2023-06-07T13:58:45Z) - Representation-Driven Reinforcement Learning [57.44609759155611]
強化学習のための表現駆動型フレームワークを提案する。
期待値の見積もりとしてポリシーを表現することにより、我々は、探索と搾取を導くために、文脈的盗賊の手法を活用する。
このフレームワークの有効性を,進化的および政策的勾配に基づくアプローチに適用することによって実証する。
論文 参考訳(メタデータ) (2023-05-31T14:59:12Z) - Verified Probabilistic Policies for Deep Reinforcement Learning [6.85316573653194]
我々は、深い強化学習のための確率的政策を検証する問題に取り組む。
本稿では,マルコフ決定プロセスの間隔に基づく抽象的アプローチを提案する。
本稿では,抽象的解釈,混合整数線形プログラミング,エントロピーに基づく洗練,確率的モデルチェックを用いて,これらのモデルを構築・解決する手法を提案する。
論文 参考訳(メタデータ) (2022-01-10T23:55:04Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Building a Foundation for Data-Driven, Interpretable, and Robust Policy
Design using the AI Economist [67.08543240320756]
AIエコノミストフレームワークは,2段階強化学習とデータ駆動型シミュレーションを用いて,効果的な,柔軟な,解釈可能なポリシー設計を可能にする。
RLを用いて訓練されたログリニア政策は、過去の結果と比較して、公衆衛生と経済の両面から社会福祉を著しく改善することがわかった。
論文 参考訳(メタデータ) (2021-08-06T01:30:41Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。