論文の概要: Knowledge Infused Policy Gradients for Adaptive Pandemic Control
- arxiv url: http://arxiv.org/abs/2102.06245v1
- Date: Thu, 11 Feb 2021 20:13:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-15 23:23:34.817889
- Title: Knowledge Infused Policy Gradients for Adaptive Pandemic Control
- Title(参考訳): 適応型パンデミック制御のための知識注入型ポリシー勾配
- Authors: Kaushik Roy, Qi Zhang, Manas Gaur, and Amit Sheth
- Abstract要約: 新型コロナウイルスを理解するために構築された疫学モデルはほとんど政策立案者に適応性パンデミックコントロール(APC)の機能を提供します。
克服すべき課題の1つは、(a)パンデミックのタイムラインにまたがる様々なコントリビューション機能において高い非均一性を扱うことができないこと、(b)公衆衛生専門家の知識を適応的に取り入れられるアプローチがないこと、(c)政策提案における意思決定プロセスの理解を可能にする透明なモデルである。
- 参考スコア(独自算出の注目度): 13.10519361244901
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: COVID-19 has impacted nations differently based on their policy
implementations. The effective policy requires taking into account public
information and adaptability to new knowledge. Epidemiological models built to
understand COVID-19 seldom provide the policymaker with the capability for
adaptive pandemic control (APC). Among the core challenges to be overcome
include (a) inability to handle a high degree of non-homogeneity in different
contributing features across the pandemic timeline, (b) lack of an approach
that enables adaptive incorporation of public health expert knowledge, and (c)
transparent models that enable understanding of the decision-making process in
suggesting policy. In this work, we take the early steps to address these
challenges using Knowledge Infused Policy Gradient (KIPG) methods. Prior work
on knowledge infusion does not handle soft and hard imposition of varying forms
of knowledge in disease information and guidelines to necessarily comply with.
Furthermore, the models do not attend to non-homogeneity in feature counts,
manifesting as partial observability in informing the policy. Additionally,
interpretable structures are extracted post-learning instead of learning an
interpretable model required for APC. To this end, we introduce a mathematical
framework for KIPG methods that can (a) induce relevant feature counts over
multi-relational features of the world, (b) handle latent non-homogeneous
counts as hidden variables that are linear combinations of kernelized
aggregates over the features, and (b) infuse knowledge as functional
constraints in a principled manner. The study establishes a theory for imposing
hard and soft constraints and simulates it through experiments. In comparison
with knowledge-intensive baselines, we show quick sample efficient adaptation
to new knowledge and interpretability in the learned policy, especially in a
pandemic context.
- Abstract(参考訳): 新型コロナウイルス(COVID-19)は、その政策実装に基づいて異なる国に影響を与えている。
効果的な政策には、公開情報と新しい知識への適応性を考慮する必要がある。
新型コロナウイルスを理解するために構築された疫学モデルはほとんど政策立案者に適応性パンデミックコントロール(APC)の機能を提供します。
克服すべき課題の1つは、(a)パンデミックのタイムラインにまたがる様々なコントリビューション機能において高い非均一性を扱うことができないこと、(b)公衆衛生専門家の知識を適応的に取り入れられるアプローチがないこと、(c)政策提案における意思決定プロセスの理解を可能にする透明なモデルである。
本研究では,Knowledge Infused Policy Gradient (KIPG) 手法を用いて,これらの課題を早期に解決する。
知識注入に関する先行研究は、疾患情報やガイドラインに関するさまざまな知識のソフトでハードな差し込みを扱うものではありません。
さらに、モデルは特徴数における非均一性に従わず、ポリシーを通知する部分的可観測性として表される。
さらに、APCに必要な解釈可能なモデルを学ぶ代わりに、解釈可能な構造をポストラーニングで抽出する。
そこで本研究では, (a) 世界のマルチリレーショナルな特徴に対して関連する特徴数を誘導し, (b) 核化集約の線形結合である隠れ変数として潜在非均質数を扱い, (b) 知識を関数的制約として原理的に組み込む, KIPG法の数学的枠組みを提案する。
この研究は硬く柔らかい制約を課す理論を確立し、実験を通じてそれをシミュレートする。
知識集約型ベースラインと比較すると,新しい知識への迅速な適応と,特にパンデミック状況における学習方針における解釈可能性を示す。
関連論文リスト
- Probing the Decision Boundaries of In-context Learning in Large Language Models [31.977886254197138]
本稿では,テキスト内二項分類のための決定境界のレンズからテキスト内学習を探索し,理解するための新しいメカニズムを提案する。
驚いたことに、単純な二項分類タスクにおいて、現在のLLMによって学習される決定境界は、しばしば不規則で非滑らかである。
論文 参考訳(メタデータ) (2024-06-17T06:00:24Z) - Hierarchical Framework for Interpretable and Probabilistic Model-Based
Safe Reinforcement Learning [1.3678669691302048]
本稿では,安全クリティカルシステムにおける深層強化学習の新たなアプローチを提案する。
確率論的モデリングと強化学習の利点と、解釈可能性の利点を兼ね備えている。
論文 参考訳(メタデータ) (2023-10-28T20:30:57Z) - Explaining by Imitating: Understanding Decisions by Interpretable Policy
Learning [72.80902932543474]
観察されたデータから人間の行動を理解することは、意思決定における透明性と説明責任にとって重要である。
意思決定者の方針をモデル化することが困難である医療などの現実的な設定を考えてみましょう。
本稿では, 設計による透明性の向上, 部分観測可能性の確保, 完全にオフラインで動作可能なデータ駆動型意思決定行動の表現を提案する。
論文 参考訳(メタデータ) (2023-10-28T13:06:14Z) - On Pathologies in KL-Regularized Reinforcement Learning from Expert
Demonstrations [79.49929463310588]
我々は,KL-正規化強化学習と行動基準ポリシを併用することで,病理訓練のダイナミクスに悩まされることを示した。
非パラメトリックな行動参照ポリシーで治療できることを示す。
論文 参考訳(メタデータ) (2022-12-28T16:29:09Z) - Exploring the Pareto front of multi-objective COVID-19 mitigation
policies using reinforcement learning [1.7056617973440933]
感染症の発生は公衆衛生や社会プロセスに破壊的な影響を及ぼす可能性がある。
現在の研究は、病原体の攻撃率のような単一の目的でポリシーを最適化することに焦点を当てている。
深層多目的強化学習を適用し,最先端のアルゴリズムを用いて解の集合を学習する。
論文 参考訳(メタデータ) (2022-04-11T11:55:06Z) - POETREE: Interpretable Policy Learning with Adaptive Decision Trees [78.6363825307044]
POETREEは、ポリシー学習を解釈するための新しいフレームワークである。
患者の観察と医療史に基づいて、医師の行動を決定する確率的ツリーポリシーを構築する。
これは、リアルおよび合成医療データセットの最先端を上回ります。
論文 参考訳(メタデータ) (2022-03-15T16:50:52Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Multicriteria interpretability driven Deep Learning [0.0]
ディープラーニングの手法はパフォーマンスで有名だが、その解釈可能性の欠如は、高い文脈での学習を妨げている。
近年のモデル手法では、モデルの内部動作をリバースエンジニアリングすることで、ポストホック解釈可能性法を提供することでこの問題に対処している。
本稿では,目的関数に知識を注入することで,モデルの結果に特徴的影響を制御できるマルチクレータ非依存手法を提案する。
論文 参考訳(メタデータ) (2021-11-28T09:41:13Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z) - Deep RL With Information Constrained Policies: Generalization in
Continuous Control [21.46148507577606]
情報フローに対する自然な制約は, 連続制御タスクにおいて, 人工エージェントに干渉する可能性があることを示す。
CLAC(Capacity-Limited Actor-Critic)アルゴリズムを実装した。
実験の結果、CLACは代替手法と比較して、トレーニング環境と修正テスト環境の一般化に改善をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-10-09T15:42:21Z) - Probably Approximately Correct Constrained Learning [135.48447120228658]
我々は、ほぼ正しい学習フレームワーク(PAC)に基づく一般化理論を開発する。
PAC学習可能なクラスも制約のある学習者であるという意味では,学習者の導入は学習問題を難しくするものではないことを示す。
このソリューションの特性を分析し,制約付き学習が公平でロバストな分類における問題にどのように対処できるかを説明する。
論文 参考訳(メタデータ) (2020-06-09T19:59:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。