論文の概要、ライセンス

# (参考訳) Medkit-Learn(ing)環境:シミュレーションによる医療決定モデル [全文訳有]

The Medkit-Learn(ing) Environment: Medical Decision Modelling through Simulation ( http://arxiv.org/abs/2106.04240v1 )

ライセンス: CC BY 4.0
Alex J. Chan, Ioana Bica, Alihan Huyuk, Daniel Jarrett, Mihaela van der Schaar(参考訳) 臨床環境における意思決定を理解することは、機械学習の強みを究極的に患者の結果を改善するためにも最重要である。 公開データの可用性、問題の本質的にオフライン性、人間による意思決定の複雑さなど、いくつかの要因は、アルゴリズムの主流となる開発が、必ずしも医療体制に必ずしもうまく翻訳されないタスクにおける最適なパフォーマンスに向けられていることを意味している。 Medkit-Learn(ing) Environmentは,高忠実度合成医療データへの簡易かつ容易なアクセスを提供するPythonパッケージである。 現実的な医療環境でアルゴリズムを比較するための標準化された方法を提供する一方で、私たちは、さまざまなカスタマイズを可能にするために、ポリシーと環境のダイナミクスを混乱させる生成プロセスを採用しています。

Understanding decision-making in clinical environments is of paramount importance if we are to bring the strengths of machine learning to ultimately improve patient outcomes. Several factors including the availability of public data, the intrinsically offline nature of the problem, and the complexity of human decision making, has meant that the mainstream development of algorithms is often geared towards optimal performance in tasks that do not necessarily translate well into the medical regime; often overlooking more niche issues commonly associated with the area. We therefore present a new benchmarking suite designed specifically for medical sequential decision making: the Medkit-Learn(ing) Environment, a publicly available Python package providing simple and easy access to high-fidelity synthetic medical data. While providing a standardised way to compare algorithms in a realistic medical setting we employ a generating process that disentangles the policy and environment dynamics to allow for a range of customisations, thus enabling systematic evaluation of algorithms' robustness against specific challenges prevalent in healthcare.
公開日: Tue, 8 Jun 2021 10:38:09 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 n u J 1 2 0 2 n u J 0.85
8 ] G L . 8 ] G L。 0.81
s c [ 1 v 0 4 2 4 0 sc [ 1 v 0 4 2 4 0 0.68
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
The Medkit-Learn(ing) Environment: Medical medkit-learn(ing)環境:医療 0.80
Decision Modelling through Simulation シミュレーションによる決定モデリング 0.87
Alex J. Chan Alex J. Chan 0.94
University of Cambridge Cambridge, UK ケンブリッジ大学 ケンブリッジ、イギリス 0.62
alexjchan@maths.cam. ac.uk alexjchan@maths.cam. ac.uk 0.47
ioana.bica@eng.ox.ac .uk ioana.bica@eng.ox.ac .uk 0.39
Ioana Bica University of Oxford イオアナビカ オックスフォード大学 0.44
Oxford, UK オックスフォード、イギリス 0.72
Alihan Hüyük Alihan Hüyük 0.85
University of Cambridge Cambridge, UK ケンブリッジ大学 ケンブリッジ、イギリス 0.62
ah2075@cam.ac.uk ah2075@cam.ac.uk 0.52
Daniel Jarett ダニエル・ジャレット 0.60
University of Cambridge Cambridge, UK ケンブリッジ大学 ケンブリッジ、イギリス 0.62
daniel.jarrett@maths .cam.ac.uk daniel.jarrett@maths .cam.ac.uk 0.39
Mihaela van der Schaar University of Cambridge Mihaela van der Schaar University of Cambridge 0.85
Cambridge, UK ケンブリッジ、イギリス 0.69
mv472@cam.ac.uk mv472@cam.ac.uk 0.52
Abstract Understanding decision-making in clinical environments is of paramount importance if we are to bring the strengths of machine learning to ultimately improve patient outcomes. 概要 臨床環境における意思決定を理解することは、機械学習の強みを究極的に患者の結果を改善するためにも最重要である。
訳抜け防止モード: 概要 臨床的環境における意思決定の理解 最重要事項です 機械学習の強みを 最終的には患者の成果を 改善するつもりです
0.64
Several factors including the availability of public data, the intrinsically offline nature of the problem, and the complexity of human decision making, has meant that the mainstream development of algorithms is often geared towards optimal performance in tasks that do not necessarily translate well into the medical regime; often overlooking more niche issues commonly associated with the area. 公開データの可用性、問題の本質的にオフライン性、人間による意思決定の複雑さなど、いくつかの要因は、アルゴリズムの主流となる開発が、必ずしも医療体制に必ずしもうまく翻訳されないタスクにおける最適なパフォーマンスに向けられていることを意味している。 0.65
We therefore present a new benchmarking suite designed specifically for medical sequential decision making: the Medkit-Learn(ing) Environment, a publicly available Python package providing simple and easy access to high-fidelity synthetic medical data. Medkit-Learn(ing) Environmentは,高忠実度合成医療データへの簡易かつ容易なアクセスを提供するPythonパッケージである。
訳抜け防止モード: そこで我々は,医療シーケンシャルな意思決定に特化した新しいベンチマークスイート medkit - learn(ing )環境を提案する。 高忠実な合成医療データへのシンプルで簡単なアクセスを提供する、一般公開されたpythonパッケージ。
0.64
While providing a standardised way to compare algorithms in a realistic medical setting we employ a generating process that disentangles the policy and environment dynamics to allow for a range of customisations, thus enabling systematic evaluation of algorithms’ robustness against specific challenges prevalent in healthcare. 現実的な医療環境でアルゴリズムを比較するための標準化された方法を提供する一方で、私たちは、さまざまなカスタマイズを可能にするために、ポリシーと環境のダイナミクスを混乱させる生成プロセスを採用しています。 0.76
1 Introduction Modelling human decision-making behaviour from observed data is a principal challenge in understanding, explaining, and ultimately improving existing behaviour. 1 はじめに 観察されたデータから人間の意思決定行動をモデル化することは、既存の行動を理解し、説明し、最終的に改善する上で大きな課題である。 0.62
This is the business of decision modelling, which includes such diverse subfields as reward learning [1, 55, 35, 29], preference elicitation [32], goal inference [54], interpretable policy learning [28], and policy explanation [10]. これは意思決定モデリングのビジネスであり、報酬学習[1, 55, 35, 29]、選好誘発[32]、ゴール推論[54]、解釈可能なポリシー学習[28]、ポリシー説明[10]のような多様なサブフィールドを含んでいる。
訳抜け防止モード: これは意思決定モデリングのビジネスであり、報酬学習[1, 55, 35, 29]のような多様なサブフィールドを含んでいる。 選好誘発[32],ゴール推論[54], 解釈可能な政策学習[28]および政策説明[10]。
0.75
Decision modelling is especially important in medical environments, where learning interpretable representations of existing behaviour is the first crucial step towards a more transparent account of clinical practice. 意思決定モデリングは医療環境において特に重要であり、既存の行動の解釈可能な表現を学習することが、臨床実践をより透明にするための最初の重要なステップである。 0.69
For research and development in clinical decision modelling, it is important that such techniques be validated robustly—that is, operating in different medical domains, guided by different environment dynamics, and controlled by different behavioural policies. 臨床決定モデリングの研究・開発においては, 異なる医療領域, 異なる環境動態に導かれ, 異なる行動政策によって制御され, 堅牢に検証されることが重要である。 0.85
This is difficult due to three reasons. これは3つの理由から難しい。 0.78
First, the very nature of healthcare data science is that any learning and testing must be carried out entirely offline, using batch medical datasets that are often limited in size, variety, and accessibility [25, 39]. まず、医療データサイエンスの本質は、サイズ、多様性、アクセシビリティに制限のあるバッチ医療データセットを使用して、あらゆる学習とテストが完全にオフラインで実行されなければならないことです [25,39]。 0.68
Second, directly using methods for time-series synthetic data generation is inadequate, as they simply learn sequential generative models to replicate existing data, making no distinction between environment and policy dynamics [20, 53, 14]. 第2に、時系列合成データ生成の手法を直接利用する方法は、既存のデータを複製するために逐次生成モデルを学習するだけで、環境と政策のダイナミクスを区別しないため、不十分である。 0.71
Because the environment and policy dynamics are 環境と政策のダイナミクスは 0.56
Preprint. Under review. プレプリント。 レビュー中。 0.63
英語(論文から抽出)日本語訳スコア
Figure 1: Overview of Medkit. 図1:Medkitの概要。 0.71
The central object in Medkit is the scenario, made up of a domain, environment, and policy which fully defines the synthetic setting. medkitの中心的なオブジェクトは、合成設定を完全に定義したドメイン、環境、ポリシで構成されるシナリオである。 0.74
By disentangling the environment and policy dynamics, Medkit enables us to simulate decision making behaviours with various degrees of Markovianity, individual consistency, bounded rationality and variation in practice. 環境と政策のダイナミクスを解き放つことで、メドキットはマルコビアン性、個人の一貫性、有界な合理性、実践における変動といった様々な決定行動のシミュレートを可能にします。 0.59
An example scenario is highlighted: ICU patient trajectories with environment dynamics modelled by a sequential VAE and a customised clinical policy. 一連のvaeとカスタマイズされた臨床方針によってモデル化された環境ダイナミクスを備えたicu患者の軌跡。 0.77
The output from Medkit will be a batch dataset that can be used for training and evaluating methods for modelling human decision-making. Medkitの出力は、人間の意思決定をモデル化するためのトレーニングと評価に使用できるバッチデータセットである。 0.73
entangled, such models do not allow for customisation of the decision making policy and thus cannot be used for evaluating methods for understanding human decision-making. このようなモデルは意思決定方針のカスタマイズを許さないため、人間の意思決定を理解する方法の評価には使用できない。 0.74
Third, while various hand-crafted medical simulators have been proposed as stylised proofs-of-concept for research [43, 24, 16, 22], they often make unrealistic assumptions and simplifications that are unlikely to transfer well to any more complicated real-world setting. 第3に、様々な手作りの医療シミュレータが研究のための概念実証(43,24,16,22)として提案されているが、より複雑な実世界環境にうまく移行できない非現実的な仮定や単純化がしばしばなされている。 0.71
Moreover, these simulators do not directly allow obtaining offline data from different types of policy parameterisations. さらに、これらのシミュレータは、異なるタイプのポリシーパラメーターからオフラインデータを直接取得することができない。
訳抜け防止モード: さらに、これらのシミュレータは直接許可しない 異なるタイプのポリシーパラメーターからオフラインデータを取得する。
0.71
Desiderata: It is clear that what is desired, therefore, is a tool that supports: (1) a variety of realistic environment models—learned from actual data, to reflect real medical settings), thus allowing simulation of (2) a variety of expressive and customisable policy models that represent complex human decision-behaviours; as well as (3) ensuring that the environment and policy components are disentangled—hence independently controllable. Desiderata: 望まれているものは、(1)実際のデータから学習され、実際の医療環境を反映する様々な現実的な環境モデル、(2)複雑な人間の意思決定行動を表す様々な表現的かつカスタマイズ可能な政策モデルのシミュレーションを可能にすること、(3)環境と政策コンポーネントが切り離されていることを保証すること、などをサポートするツールであることは明らかです。 0.85
Contributions: We present the Medkit-Learn(ing) Environment (“Medkit”), a toolbox and benchmarking suite designed precisely for machine learning research in decision modelling. コントリビューション:Medkit-Learn(ing) Environment(“Medkit”)は、意思決定モデリングにおける機械学習研究のために設計された、ツールボックスとベンチマークスイートである。 0.73
Fulfilling all of the above key criteria, Medkit seeks to enable advances in decision modelling to be validated more easily and robustly—by enabling users to obtain batch datasets with known ground-truth policy parameterisations that simulate decision making behaviours with various degrees of Markovianity, bounded rationality, confounding, individual consistency and variation in practice. ユーザは、Markovianity、bounded rationality、bounded rationality、confounding、個人一貫性、実践上のばらつきのさまざまな度合いで意思決定動作をシミュレートする、既知の基本的ポリシーパラメーター付きバッチデータセットを取得できるようになる。
訳抜け防止モード: 上記の主要な基準をすべてフルフィルする。 Medkitは意思決定モデリングの進歩を、より簡単かつ堅牢に検証できるようにする ユーザーが既知の基盤を持つバッチデータセットを入手できるようにすることで、さまざまなマルコビアン性を持つ意思決定行動をシミュレートする真理ポリシーパラメータ化が可能になる。 有界な合理性 欠点 個人の一貫性 実践における変化
0.59
Moreover, to facilitate efficient progress in this area of understanding human decision-making, we have built Medkit to be freely accessible and transparent in data simulation and processing to enable reproducibility and fair benchmarking. さらに、この領域における人間の意思決定の効率的な発展を促進するために、データシミュレーションと処理において自由にアクセス可能で透明なmedkitを構築し、再現性と公平なベンチマークを可能にした。 0.58
2 The Medkit-Learn(ing) Environment 2 medkit-learn(ing)環境 0.72
Figure 1 gives an overview of the structure of Medkit, demonstrating a modular design philosophy to enable an ever-growing offering of scenarios as new algorithms and data become available. 図1は、medkitの構造の概要を示し、新しいアルゴリズムとデータが利用可能になるにつれて、増え続けるシナリオの提供を可能にするモジュール設計哲学を示しています。 0.73
Medkit is publicly available on GitHub: https://github.com/X anderJC/medkit-learn . MedkitはGitHubで公開されている。 0.53
Written in Python and built using PyTorch [46] for a unified model framework, Medkit takes advantage of the OpenAI gym [9] interface for live interaction but has otherwise minimal dependencies. Pythonで書かれ、統一されたモデルフレームワークにPyTorch [46]を使って構築されたMedkitは、ライブインタラクションにOpenAIのジム[9]インターフェースを利用するが、それ以外は最小限の依存関係を持つ。 0.69
2.1 Simulating Medical Datasets for Modelling Sequential Decision-Making 2.1 シーケンシャル意思決定のモデリングのための医療データセットのシミュレーション 0.54
Our aim is to build generative models for the decision making process, that allow for full customisation of: (1) the environment dynamics, that model how the patient’s state changes; and (2) the policy dynamics through which users can specify complex decision making behaviours. 本研究の目的は,(1) 患者の状態の変化をモデル化する環境動態,(2) ユーザが複雑な意思決定動作を指定できるポリシーダイナミクスの完全なカスタマイズを可能にする,意思決定プロセスのための生成モデルを構築することである。 0.81
Formally, we define a scenario as a tuple (Ω,E, π), which represents the central component of Medkit that fully defines a generative distribution over synthetic data. 形式的には、シナリオを合成データ上の生成分布を完全に定義するメドキットの中心成分であるタプル(Ω,E, π)として定義する。 0.76
A scenario comprises a medical domain, Ω (e g the ICU); an environment dynamics model for sequential observations, E (e g a linear state space model); and a policy mapping the observations to actions, π (e g a decision tree). シナリオは、医療領域 Ω (例: ICU)、シーケンシャルな観測のための環境力学モデル E (例:線形状態空間モデル)、そして、観測結果をアクションにマッピングするポリシー π (例:決定木)である。 0.69
2 medkit-learnGymBatch Generator…APIICUWard…DomainStateSpaceSVAE …EnvironmentConsisten cyBounded RationalityCustom PolicyScenarioScaler sImitation…ToolsVariation in PracticeMarkovianity 2 medkit-learnGymBatch Generator...APIICUWa rd...DomainStateSpac eSVAE...EnvironmentC onsistencyBounded RationalityCustom PolicyScenarioScaler sImitation...ToolsVa riation in PracticeMarkovianity 0.55
英語(論文から抽出)日本語訳スコア
t=1 be the individual patient trajectories and let (cid:126)yT = {yt}T t=1は個々の患者軌跡であり、(cid:126)yT = {yt}T 0.85
Let (cid:126)xT = xs ∪ {xt}T t=1 be the clinical interventions (actions). (cid:126)xt = xs; {xt}t t=1 を臨床介入(アクション)とする。 0.78
Here xs ∈ Xs is a multi-dimensional vector of static features of the patient, e g height, various comorbidities, or blood type - while xt ∈ X a multi-dimensional vector representing temporal clinical information such as biomarkers, test results, and acute events. ここで xs ∈ Xs は患者の静的な特徴の多次元ベクトルであり、eg の高さ、様々な相同性、血液型であり、xt ∈ X はバイオマーカー、検査結果、急性事象などの時間的臨床情報を表す多次元ベクトルである。 0.78
Additionally yt ∈ Y is a further possibly multi-dimensional vector representing the actions and interventions of medical professionals, for example indicators for ordering tests and prescribing treatments. さらに yt ∈ Y は、医療専門家の行動と介入を表す多次元ベクトルであり、例えば、検査の順序付けや治療の処方の指標である。 0.70
We propose modelling the joint distribution of the patient features and clinical interventions p((cid:126)xT , (cid:126)yT ) using the following factorisation: 以下を用いて, 患者特徴と臨床介入p((cid:126)xT, (cid:126)yT)の関節分布をモデル化することを提案する。 0.83
p((cid:126)xT , (cid:126)yT ) = P ΩE (xs)P ΩE (x1|xs)(cid:81)T π (y1|xs, x1)(cid:81)T p((cid:126)xT , (cid:126)yT ) = P ΩE (xs)P ΩE (x1|xs)(cid:81)T π (y1|xs, x1)(cid:81)T 0.81
× QΩ (cid:124) ×QΩ (cid:124) 0.77
(cid:124) (cid:123)(cid:122) (cid:125) t=2 P ΩE (xt|fE ((cid:126)xt−1, (cid:126)yt−1)) (cid:125) (cid:123)(cid:122) π (yt|gπ((cid:126)xt, (cid:126)yt−1)) (cid:124) (cid:123) (cid:125) t=2 P ΩE (xt|fE ((cid:126)xt−1, (cid:126)yt−1)) (cid:125) (cid:123) (cid:122) π (yt|gπ((cid:126)xt, (cid:126)yt−1)) 0.77
Environment t=2 QΩ Policy 環境 t=2 QΩ 政策 0.69
, (1) where the distributions P ΩE (·) specify the transition dynamics for domain Ω and environment E and π represents the policy for making clinical interventions in domain Ω, thus defining the decision QΩ making behaviour. , (1) 分布 P ΩE (·) は領域 Ω と環境 E の遷移力学を規定し、π は領域 Ω における臨床的介入を行うためのポリシーを表し、QΩ の行動を決定する。 0.85
Note that the patient trajectories and interventions depend on the entire history of the patient. 患者の経過と介入は患者の全歴に依存することに注意。 0.74
The functions f and g are modelled to be distinct such that the focus on the past represented in the conditional distributions may be different for both the policy and the environment. 関数 f と g は、条件分布で表される過去への焦点がポリシーと環境の両方で異なるように、別々にモデル化される。 0.66
While this factorisation allows for enough flexibility, we will often make use of a representation given in the graphical model of Figure 2 which includes a hidden state of the environment zt to be the underlying driver of the data. この因子化によって十分な柔軟性が得られますが、しばしば図2のグラフィカルモデルで示される表現を使用します。
訳抜け防止モード: この因子化によって十分な柔軟性が得られますが、図2のグラフィカルモデルで与えられる表現をしばしば利用します。 データの基盤となるドライバとなるように、環境ztの隠れた状態を含む。
0.78
Note this is even more general and we recover equation (1) if zt is simply set as xt. これはさらに一般的であり、もし zt が単に xt に設定されているならば、方程式 (1) を復元する。 0.64
With the factorisation proposed in Equation 1 we notice a clear separation between the environment and policy dynamics so that they can be modelled and learnt separately, with the domain defining the “meta-data” such as the spaces Xs,X , and Y. 方程式 1 で提案された因子化により、環境とポリシーのダイナミクスを明確に分離し、それらをモデリングし、個別に学習できるようにし、領域は空間 Xs, X , Y のような「メタデータ」を定義する。 0.77
This disentanglement between the environment and policy components is not possible in current synthetic data generation methods (as we explore in section 3). この環境と政策コンポーネントの絡み合いは、現在の合成データ生成法では不可能である(第3節で調べる)。 0.76
A corollary to this makes for a useful feature of Medkit - that we can then mix and match elements of the tuple to create a variety of different scenarios that can be extended easily in the future when new models or data become available. タプルの要素をミックスしてマッチさせることで、新しいモデルやデータが利用可能になると、将来的に簡単に拡張可能なさまざまなシナリオを作成できるのです。
訳抜け防止モード: これはMedkitの便利な機能であり、それらを混ぜ合わせることができる。 様々なシナリオを作るために タプルの要素と一致します 新しいモデルやデータが利用可能になったら、将来容易に拡張できる。
0.64
This not only satisfies our desiderata, but also enables Medkit users to generate a variety of batch datasets with customisable policy parameterisations (e.g in terms of Markovianity, reward, variation in practice) and thus evaluate a range of methods for understanding decision-making. これは私たちのデシダータを満足するだけでなく、Medkitユーザーがカスタマイズ可能なポリシーパラメータ化(マルコビアン性、報酬、実践のバリエーションなど)で様々なバッチデータセットを生成し、意思決定を理解するための様々な方法を評価することを可能にする。 0.64
Figure 2: Graphical model of the generative process we consider. 図2: 私たちが考慮している生成過程のグラフィカルモデル。 0.76
Usually there will be some hidden state of the environments that drives the actions and observations seen. 通常、観測された行動や観察を駆動する環境の隠れた状態が存在する。 0.82
2.2 User workflow 2.2 ユーザワークフロー 0.64
Medkit was build to facilitate the development of machine learning methods for clinical decision modelling. Medkitは、臨床意思決定モデリングのための機械学習手法の開発を容易にするために開発された。 0.66
Medkit offers users the flexibility to obtain batch datasets Dω syn,E for any desired type of parameterisation θ (e g temperature, Markovianity, reward) of the decision making policy QE πθ and thus evaluate a wide range of methods for modelling sequential decision making. Medkit は、意思決定ポリシー QE πθ の任意のパラメータ化 θ (eg temperature, Markovianity, reward) に対してバッチデータセット Dω syn,E を得る柔軟性を提供し、シーケンシャルな意思決定をモデル化するための幅広い方法を評価する。 0.82
This includes methods for recovering expert’s reward function [11, 7], subjective dynamics [28] or interpretable policies in the form of decision trees [6]. これには、エキスパートの報酬関数[11, 7]、主観的ダイナミクス[28]、あるいは決定木[6]の形で解釈可能なポリシーを回復する方法が含まれている。 0.70
For instance, to evaluate inverse reinforcement learning (IRL) methods, users can chose among various domains Ω and environment dynamics E and define different ground-truth reward functions Rθ with parameters θ. 例えば、逆強化学習(IRL)法を評価するために、ユーザは様々な領域 Ω と環境力学 E を選択し、パラメータ θ で異なる基底真実報酬関数 Rθ を定義することができる。 0.74
Then, users can run Q-learning [42] πθ for reward Rθ, and add it to Medkit, which can then be used to to obtain the optimal policy Qω simulate a batch dataset with demonstrations Dω syn,E for training their IRL algorithm. 次に,Q-learning [42] πθ を報酬 Rθ に対して実行し,それを Medkit に追加することで,Qω が IRL アルゴリズムをトレーニングするための Dω syn,E を用いたバッチデータセットのシミュレーションを行う。 0.80
The recovered policy parameteriaation ˆθ can then be evaluated against the ground truth θ. 回復されたポリシーパラメーター θ は基底真理 θ に対して評価することができる。 0.71
While, as above, users can specify their own policy to roll-out in the environments, we also provide as part of Medkit different types of parameterised policies learnt from the clinicians’ policies in 上記のように、ユーザは、環境にロールアウトするための独自のポリシーを指定できるが、Medkitの異なるタイプのパラメータ化ポリシーの一部として、臨床医のポリシーから学んだものを提供する。 0.69
3 𝒛𝟏𝒛𝟐𝒛𝟑𝒛𝟒𝒙𝟏𝒙𝟒𝒙𝟑𝒙𝟐𝒚𝟏𝒚𝟐𝒚𝟒𝒚𝟑𝒙𝒔 3 𝒛𝟏𝒛𝟐𝒛𝟑𝒛𝟒𝒙𝟏𝒙𝟒𝒙𝟑𝒙𝟐𝒚𝟏𝒚𝟐𝒚𝟒𝒚𝟑𝒙𝒔 0.82
英語(論文から抽出)日本語訳スコア
Table 1: Summary of related benchmarks key features. 表1: 関連するベンチマークの概要 主要な機能。 0.70
Are they focused on the Medical setting? 医療に焦点を合わせていますか? 0.68
Are they designed for Offline algorithms? オフラインアルゴリズム用に設計されているか? 0.61
Do they allow Custom policies? カスタムポリシは許可されているか? 0.60
Do they test how Robust algorithms are? アルゴリズムの堅牢性をテストするのか? 0.71
Do they incorporate Non-Markovian environment dynamics? 非マルコフ環境力学を取り入れているか? 0.56
Benchmark Medical Offline Robust Non-Markovian ベンチマーク 医療用オフラインロバスト非マルコフ 0.65
Simulates Simulated policy シミュレーション 模擬政策 0.67
s OpenAI gym [9] s openai gym [9] 0.76
L R v n e ALE [5] L R v n e ALE[5] 0.84
s RL Unplugged [26] s RL unplugged [26] 0.83
L I d n a L R L I d n a L R 0.85
k r a m h c n e b k r a m h c n e b 0.85
RL Bench [30] Simitate [41] MAGICAL [50] . rlベンチ[30]は[41]魔法[50]をシミュレートする。 0.62
TimeGAN [53] TimeGAN [53] 0.85
. h t n y S . h t n y S 0.85
n e g Fourier Flows [2] Medkit (Ours) n e g fourier flow [2] medkit (ours) 0.71
            0.85
                  0.85
                  0.85
                  0.85
   Environment Only Environment Only    環境のみの環境 0.82
Env. & Policy (Entangled) Env. Env & Policy (Entangled) Env. 0.69
& Policy (Entangled) Env. & Policy (Entangled) Env. 0.85
& Policy (Entangled) Env. & Policy (Entangled) Env. 0.85
& Policy (Entangled) Env. & Policy (Entangled) Env. 0.85
& Policy (Entangled) Env. & Policy (Entangled) Env. 0.85
& Policy (Entangled) & Policy (複数形 & Policys) 0.70
N/A N/A Fixed Fixed Fixed Fixed Fixed Fixed N/A N/A 固定固定固定固定固定固定固定 0.62
Env. & Policy (Disentangled) Env & policy (uncountable) 0.61
Customizable the real dataset DΩ real. カスタマイズ可能 実際のデータセット DΩ real。 0.77
These built-in policies allow users to easily obtain batch datasets for simulating decision making behaviour with various (customisable) degrees of Markovianity, rationality, counfounding, individual consistency and variation in practice. これらのビルトインポリシーにより、ユーザは、Markovianity, rationality, counfounding, individual consistency and variation in practiceのさまざまな(理解可能な)度合いで意思決定行動をシミュレートするためのバッチデータセットを簡単に取得できる。 0.67
Details can be found in Section 4.2. 詳細は4.2節を参照。 0.65
3 Alternative Benchmarks and Simulation 3つの代替ベンチマークとシミュレーション 0.67
Medkit generates synthetic batch medical datasets for benchmarking algorithms for modelling decision making. Medkitは、意思決定をモデル化するためのベンチマークアルゴリズムのための合成バッチ医療データセットを生成する。 0.52
There is currently a relative lack of standardised benchmarks for medical sequential decision making and most of the few medical simulators used for evaluation are mathematically formulated as dynamical systems defined by a small set of differential equations (e.g cancer simulator in Gottesman et al [24], HIV simulator in Du et al [16]) or are hand-designed MDPs (e.g sepsis simulator in Oberst and Sontag [43], Futoma et al [22]). 現在、医学的なシーケンシャルな意思決定のための標準化されたベンチマークが欠如しており、評価に使用される数少ない医療シミュレータのほとんどは、小さな微分方程式(gottesman et al [24]、hiv simulator in du et al [16])によって定義された力学系として数学的に定式化されているか、手作りのmdpである(例えば oberst and sontag [43]、futoma et al [22])。 0.73
Medkit, on the other hand, provides an entire benchmarking suite and enables users to generate data from various medical domains, with realistic environment dynamics and with customisable policy parameterisations. 一方、medkitはベンチマークスイート全体を提供しており、ユーザーは様々な医療領域から、リアルな環境ダイナミクスとカスタマイズ可能なポリシーパラメーターでデータを生成することができる。 0.66
Below, we discuss key differences then with related work, which are summarised in Table 1. 以下は、テーブル1にまとめられた関連する作業と重要な違いについて論じる。 0.82
Most benchmarking work has been done outside of the medical domain, in the perhaps most similar work to us [50] present a suite specifically designed to test robustness of imitation learning (IL) algorithms to distributional shifts. ほとんどのベンチマーク作業は医療領域以外で行われており、[50] と最もよく似た作業は、分布シフトに対する模倣学習(il)アルゴリズムの堅牢性をテストするために特別に設計されたスイートである。 0.72
Nevertheless, the properties they consider are specifically designed for general robotics tasks than for modelling clinical decision making in healthcare. それにもかかわらず、彼らが考える特性は、医療における臨床意思決定のモデリングよりも、一般的なロボット工学のタスクのために特別に設計されている。 0.49
Recently offline RL has come more into view and along with it a few benchmarking datasets [26, 30]. 最近、オフラインのrlがより多く表示され、いくつかのベンチマークデータセット [26, 30] が提供されている。 0.57
These collect state, action, reward tuples of agents deployed in various environments, and despite the focus on RL with the aim to make use of the reward information for some off-policy method like Q-learning, these datasets can be easily used for simple imitation as well. これらはさまざまな環境にデプロイされたエージェントの状態、行動、報酬タプルを収集し、q-learningのようなオフポリシーメソッドの報酬情報の利用を目的としてrlにフォーカスしていますが、これらのデータセットは簡単な模倣にも簡単に使用できます。 0.64
However, at their core they are large collections of recorded trajectories obtained by running trained agents through the live environment. しかし、その中核は、訓練されたエージェントをライブ環境で実行することによって得られた記録された軌道の集合体である。 0.48
Thus, unlike in Medkit, the end user is not able to specify properties of the policy that are unique to describing human decision-making behaviours such as bounded rationality individual consistency and variation in practice. したがって、メドキットとは異なり、エンドユーザは、制約付き合理性や実践における変動といった人間の意思決定行動を記述するのに特有のポリシーの特性を特定できない。 0.73
Indeed this is an issue with any imitation learning benchmark with its origins in RL: due to the reward there’s usually only one policy considered the “optimal” one and methods for these benchmarks are mainly evaluated on their ability to achieve a high cumulative reward. 実際、これはrlに起源を持つ模倣学習ベンチマークの問題である: 報酬のため、通常、"最適"であると考えられる1つのポリシーしか存在せず、これらのベンチマークの方法は、高い累積報酬を達成する能力に基づいて主に評価される。 0.65
This neglects the area of decision modelling [10, 32, 28], where we might be more interested in inference over potentially sub-optimal policies to gain understanding of the human decision-making behaviour. これは意思決定モデル [10, 32, 28] の領域を無視するものであり、人間の意思決定行動を理解するために、潜在的に最適な政策に対する推論にもっと関心があるかもしれません。
訳抜け防止モード: これは意思決定モデリングの領域を無視します [10, 32, 28]。 潜在的に副次的な政策に対する推論よりも 人間の決定 - 行動を起こす - を理解すること。
0.64
To address this, Medkit enables users to obtain batch medical datasets for various different parameterisation θ (temperature, markovianity, consistency, bounded rationality, reward) of the policy and the aim is to evaluate algorithms based on how well they can recover θ. この問題を解決するために、Medkitはポリシーの様々なパラメータ化θ(温度、マルコビアン性、一貫性、有界有理性、報酬)のバッチ医療データセットを入手し、θの回復性に基づいてアルゴリズムを評価することを目的としている。
訳抜け防止モード: これに対処する。 Medkitは様々なパラメータ化θのためのバッチ医療データセットをユーザに提供する (温度、マルコビアン性、一貫性、有界合理性、報酬) 政策と その目的は θ の回復率に基づくアルゴリズムの評価である。
0.78
Moreover, RL benchmarks focus mainly on Markovian environment dynamics, while Medkit considers the whole history of a patient. さらに、rlベンチマークは主にマルコフ環境ダイナミクスに焦点を当て、medkitは患者の歴史全体を考察している。 0.66
Generative models for decision making. 意思決定のための生成モデル。 0.75
Generative models are a long established pillar of modern machine learning [34, 23], though notably they tend to focus on image and text based applications with less focus given to the static tabular data p(xs) and even less for time-series tabular data p({xt}T t=1), based on the factorisation of equation 1. 生成モデルは、現代の機械学習 [34, 23] の長い柱であるが、特に静的な表形式データ p(xs) に焦点をあてることが少なく、方程式 1 の分解に基づく時系列表形式データ p({xt}T t=1) よりも少ない画像やテキストベースのアプリケーションに焦点を当てる傾向にある。 0.82
Importantly this allows for control over the policy, which is very important for the purposes we have in mind, and which traditional methods for synthetic data 重要なことは、これは私たちが心に置いている目的や、どの伝統的な合成データの方法に非常に重要なポリシーを制御できるということです。 0.68
t=1). Medkit presents as a generative model for the whole process p(xs,{xt}T t=1。 medkitはプロセスp(xs,{xt}t)全体の生成モデルとして提示する 0.80
t=1,{yt}T 4 t=1,{yt}T 4 0.91
英語(論文から抽出)日本語訳スコア
generation cannot handle normally. 世代は普通には扱えない。 0.71
Typically to apply generative models designed for static data, for example through normalising flows [15], to this setting it would involve merging all the static features, series features, and actions into one large feature vector. 通常、静的データのために設計された生成モデル、例えばフローの正規化 [15] をこの設定に適用するには、すべての静的機能、シリーズ機能、アクションをひとつの大きな特徴ベクトルにマージする必要がある。 0.74
This works especially badly for variable length time series requiring padding and that any relationships between variables cannot be customised. これは特にパディングを必要とする可変長時系列においてうまく動作し、変数間の関係をカスタマイズできない。 0.71
Methods that are specifically designed to work on time series data have been proposed based on convolutions [44], deep Markov models [38] and GANs [53] among others. 時系列データを扱うために特別に設計された手法は、畳み込み [44]、深いマルコフモデル [38]、gans [53] などに基づいて提案されている。 0.69
Generally they model an auto-regressive process - a notable exception being [2] who use a Fourier transform to model time series within the frequency domain, making it inapplicable for sequential generation. 例外として、周波数領域内の時系列をモデル化するためにフーリエ変換を使用する[2]があり、シーケンシャルな生成には適用できない。
訳抜け防止モード: 一般的に、オート - 回帰プロセス - 例外として [2 ] をモデル化します。 周波数領域内の時系列をモデル化するためにフーリエ変換を使用する。
0.76
Once again though all of these models do not take into account actions (and rarely static features) meaning they have to be absorbed into the series features and cannot be customised. 繰り返しになるが、これらのモデルはすべてアクション(そしてめったに静的な機能)を考慮していないので、それらはシリーズ機能に吸収され、カスタマイズできない。 0.75
4 Medkit Customisable Scenarios 4つのMedkitカスタムシナリオ 0.63
We describe here the the various domains, policies and environment dynamics we provide in the Medkit package. ここでは、Medkitパッケージで提供されるさまざまなドメイン、ポリシー、環境ダイナミクスを説明します。 0.78
These can be combined arbitrarily to obtain a large number of different scenarios for batch data generation. これらは任意に組み合わせて、バッチデータ生成のための多数の異なるシナリオを得ることができる。 0.71
Medkit can also live simulate the environment but without reward information is inappropriate for reinforcement learning. メドキットは環境をシミュレートすることもできるが、報奨情報なしでは強化学習には適さない。 0.59
4.1 Domains While Medkit generates synthetic data, the machine learning methods used in the generation process are trained on real data. 4.1ドメイン Medkitは合成データを生成するが、生成プロセスで使用される機械学習メソッドは実データに基づいて訓練される。 0.71
This is needed to capture the complexity of real medical datasets and maximise the realism of the scenarios and generated synthetic data. これは、実際の医療データセットの複雑さを捉え、シナリオのリアリズムを最大化し、合成データを生成するために必要である。 0.63
Thus, unlike in the toy medical simulators seen in the literature [43, 16, 24], the batch datasets that can be simulated from Medkit are high dimensional and governed by complex non-linear dynamics, providing a much more realistic environment to test policies in while still maintaining ground-truth information that can be used to evaluate any learnt policy. したがって、[43, 16, 24]で見られるおもちゃの医用シミュレータとは異なり、medkitからシミュレーション可能なバッチデータセットは、複雑な非線形ダイナミクスによって高次元に制御され、学習ポリシーの評価に使用できる基盤情報を維持しつつ、ポリシーをテストするためのより現実的な環境を提供する。 0.83
Out-of-the-box Medkit contains two medical domains Ω for which data can be generated, capturing different medical settings: (1) Wards: general hospital ward management at the Ronald Reagan UCLA Medical Center [4] and (2) ICU: treatment of critically ill patients in various intensive care units [33, 19]. 1病棟:ロナルド・レーガンucla医療センターの一般病院病棟管理 [4] と (2) icu:様々な集中治療室[33, 19]における重症患者の治療。
訳抜け防止モード: Out - of - ボックス Medkit には、データを生成可能な2つの医療ドメイン Ω が含まれている。 異なる医療環境を ロナルド・レーガンUCLA医療センター総合病院病棟管理 [4] および, (2 ) ICU : 各種集中治療単位[33, 19 ]の重症患者の治療について検討した。
0.81
While for each domain, the data has undergone pre-processing to de-identify and prevent re-identification of individual patients, we add an extra layer of protection in the form of differential privacy [17] guarantees by employing differentially private optimisation techniques when training models, which is readily supported by PyTorch’s Opacus library [21]. 各ドメインについて、個々の患者の再同定と予防のために事前処理が行われていますが、PyTorchのOpacusライブラリ[21]で容易にサポートされたトレーニングモデルにおいて、差分プライベートな最適化技術を採用することにより、差分プライバシ[17]という形で保護層を追加します。 0.69
By ensuring that the generated data is synthetic, Medkit enables wider public access without the risk of sensitive information being inappropriately distributed. 生成されたデータが合成されることを保証することで、Medkitは機密情報が不適切に分散されるリスクを伴わずに、より広範な公開アクセスを可能にする。 0.47
Specific details on the state and action spaces for each domain can be found in the Appendix along with details of the real data upon which they are based. 各ドメインの状態とアクション空間に関する詳細な情報は、それらがベースとなっている実際のデータの詳細とともに、付録で見ることができる。 0.73
4.2 Policies The key advantage of Medkit is that we separate the environment dynamics from the policy dynamics. 4.2政策 medkitの主な利点は、環境のダイナミクスとポリシーのダイナミクスを分離することです。 0.66
This enables us to roll-out customised policies within the environment, and obtain batch datasets where the ground-truth policy parameterisation is know. これにより、カスタマイズされたポリシーを環境内でロールアウトし、基幹方針パラメータが分かっているバッチデータセットを得ることができます。 0.62
While users can define their own policy parametrisations, we provide several built-in policies modelling the distribution: ユーザーは独自のポリシーパラメータを定義することができるが、分布をモデル化するいくつかのビルトインポリシーを提供する。 0.60
p((cid:126)yT|(cid:126)xT ) = p((cid:126)yT|(cid:126)xT ) = 0.85
π (yt|(cid:126)xt, (cid:126)yt−1) QΩ π (yt|(cid:126)xt, (cid:126)yt−1) QΩ 0.77
(2) T(cid:89) (2) t(cid:89) 0.82
t=1 (cid:88) t=1。 (cid:88) 0.62
i (cid:80) 私は (cid:80) 0.66
wi By default we might be interested in a policy that seemingly mimics the seen policy in the data as well as possible and so we include powerful neural-network based learnt policies. wi デフォルトでは、データに見られるポリシーを可能な限り模倣するようなポリシーに関心があるかもしれません。
訳抜け防止モード: wi デフォルトでは ポリシーに興味があるかもしれません データのポリシーを可能な限り模倣しているようです そのため、強力なニューラルネットワークベースの学習ポリシが含まれています。
0.72
Of course, as we hope to have conveyed already, the interesting part comes in how the policy seen in the data can be customised in specific ways that are interesting for imitation learning algorithms to try and uncover. もちろん、既に伝えておきたいと思うが、興味深いのは、データに見られるポリシーがどのようにカスタマイズされ、模倣学習アルゴリズムが試し、発見するのに役立つかという点だ。 0.67
As such all policies are constructed in a specific way: このように、全ての政策は特定の方法で構成される。 0.66
π (yt|(cid:126)xt, (cid:126)yt−1) = QΩ π(yt|(cid:126)xt, (cid:126)yt−1) = QΩ 0.78
eβiqi(yt|gi((cid:126)xt(cid:1 04)X (cid:48)(cid:105)i,( cid:126)yt−1)) y∈Y eβiqi(y|gi((cid:126)xt(cid:1 04)X (cid:48)(cid:105)i,( cid:126)yt−1)) eβiqi(yt|gi((cid:126)xt(cid:1 04)x(cid:48)(cid:105 )i,(cid:126)yt−1)ymgyeβiqi(y|gi((cid:126)xt(cid:1 04)x(cid:48)(cid:105 )i,(cid:126)yt−1)) 0.76
that introduces a number of components and properties that Medkit allows us to model and can be controlled simply through the API, the details of which are highlighted below: これは、Medkitがモデル化できる多くのコンポーネントとプロパティを導入し、APIを通じて簡単に制御できる。
訳抜け防止モード: これは、Medkitがモデル化できる多くのコンポーネントとプロパティを導入します。 詳細は下記のAPIを通して簡単にコントロールできる。
0.61
5 5 0.85
英語(論文から抽出)日本語訳スコア
1. Ground-truth Structure - the policy of a clinician will likely be difficult if not impossible to describe. 1. 基礎構造 - 説明が不可能でなければ、臨床医の方針は難しいだろう。 0.71
Even if they could articulate the policy, the information will not be available in the data. たとえポリシーを明記できたとしても、その情報はデータでは利用できない。 0.76
Alternatively, we might expect there to be some structure, since for example medical guidelines are often given in the forms of decision trees [12, 49]. あるいは、例えば、医療ガイドラインが意思決定木[12, 49]の形で与えられることが多いため、何らかの構造が期待できるかもしれない。 0.77
An algorithm that uncovers such structure on regular medical data cannot be validated, since we do not know if that inherent structure is in the data or just something the algorithm has picked out - Medkit allows us to provide this ground truth with which we can compare against. 通常の医療データ上のそのような構造を明らかにするアルゴリズムは、データの中に固有の構造があるのか、あるいはアルゴリズムが取り出したものだけなのかわからないため、検証できない。
訳抜け防止モード: 通常の医療データ上でそのような構造を明らかにするアルゴリズムは、検証できない。 分からないから その固有の構造は アルゴリズムが抽出したデータや -メドキットは、私たちが比較できる根底的な真実を提供することができます。
0.76
2. Markovianity - the common assumption in sequential decision making is usually that the problem can be modelled as a Markov decision process such that for a policy that can be expressed q(yt|g((cid:126)xt, (cid:126)yt−1)) this is constrained so that g(xt) = g((cid:126)xt, (cid:126)yt−1), assuming that the previous observations contains all of the relevant information. 2. マルコビアン性 (Markovianity) - 逐次的な意思決定における一般的な仮定は、問題は通常、q(yt|g((cid:126)xt, (cid:126)yt−1)) と表現できるポリシーに対して、g(xt) = g((cid:126)xt, (cid:126)yt−1) となるようなマルコフ決定過程としてモデル化できるということである。 0.82
With Medkit we can simply model more complicated policies that take into account information much further into the past. medkitを使えば、より詳細な情報を考慮した、より複雑なポリシーをモデル化することができます。
訳抜け防止モード: Medkitを使えば、より複雑なポリシーをモデル化できます。 過去の情報をずっと考慮に入れます
0.72
We define the Markoviantity of the policy as the minimum time lag into the past such that the policy is equivalent to when considering the whole history: inf{i ∈ N : g((cid:126)xt−i:t, (cid:126)yt−1−i:t−1) = g((cid:126)xt, (cid:126)yt−1)}. inf{i ∈ n : g((cid:126)xt−i:t, (cid:126)yt−1−i:t−1) = g((cid:126)xt, (cid:126)yt−1)} である。
訳抜け防止モード: 我々は、政策のマルコビアンティを過去への最小時間ラグとして定義し、その政策が全歴史を考えるときと同じであるように定義する: inf{i ∈ N : g((cid:126)xt−i : t, (cid:126)yt−1−i : t−1 ) = g((cid:126)xt, (cid:126)yt−1 ) } である。
0.74
3. Bounded Rationality - clinicians may not always act optimally based on all the information available to them. 3. 有界合理性(bounded rationality) - 臨床医が利用可能なすべての情報に基づいて常に最適に行動するとは限らない。 0.70
In particular they may overlook some specific variables as though they are not important [36]. 特に、特定の変数が重要でないかのように見過ごせるかもしれません [36]。 0.68
We can model this in Medkit by masking variables going into the policy model so that q(yt|g((cid:126)xt, (cid:126)yt−1)) = q(yt|g((cid:126)xt(cid:10 4)X (cid:48)(cid:105), (cid:126)yt−1)), where X (cid:48) is a subspace of X and (cid:126)xT(cid:104) X (cid:48)(cid:105) = xs ∪ {projX (cid:48) xt}T t=1. q(yt|g((cid:126)xt, (cid:126)yt−1)) = q(yt|g((cid:126)xt(cid:10 4)X (cid:48)(cid:105), (cid:126)yt−1)) ここで X (cid:48) は X の部分空間であり (cid:126)xT(cid:104) X (cid:48)(cid:105) = xs は {projX (cid:48) xt}T t=1 である。 0.82
Here, the dimensionality of X (cid:48) relative to X given as dimX (cid:48)/ dimX can be used as a measure of the agent’s rationality. ここでは、dimX (cid:48)/ dimXとして与えられるXに対するX(cid:48)の次元は、エージェントの合理性の尺度として用いられる。 0.81
cies. Formally, for policies of the form p(yt|(cid:126)xt, (cid:126)yt−1) = exp βq(yt|g(·))/(cid:80) チャンスだ 形式的には、p(yt|(cid:126)xt, (cid:126)yt−1) = exp βq(yt|g(·))/(cid:80) という形のポリシーに対して、 0.52
4. Individual Consistency - some clinicians are very consistent, they will always take the same action given a specific patient history. 4. 個々の一貫性 - 一部の臨床医は非常に一貫性があり、特定の患者の歴史から常に同じ行動を取る。 0.76
Others are more stochastic, they’ll tend to favour the same actions but might occasionally choose a different strategy given a “gut feeling” [18]. 他の人はより確率的であり、同じ行動を好む傾向がありますが、"嫌悪感" (gut feeling) を考えると、時々別の戦略を選ぶことがあります [18]。 0.59
Medkit can model this with the temperature of the Boltzmann distribution given in the output of all of the poliy∈Y exp βq(y|g(·)), the inverse temperature β ∈ R+ measures the individualised variability of an agent, where β = 0 means that the agent acts completely at random while β → ∞ means that the agent is perfectly consistent (i.e. medkit はボルツマン分布の温度を poliy ajaxy exp βq(y|g(·)) の出力で与えられるとモデル化でき、逆温度 β ∈ r+ はエージェントの個別化された変動性を測定し、ここで β = 0 はエージェントが完全にランダムに振る舞うことを意味する。
訳抜け防止モード: メドキットは、ポリヤーY exp βq(y|g ( · ) ) の出力に与えられるボルツマン分布の温度でこれをモデル化することができる。 逆温度 β ∈ R+ は、エージェントの個別変数を測定する。 β = 0 はエージェントが完全にランダムに作用することを意味し、β → ∞ はエージェントが完全に一貫した(すなわち)ことを意味する。
0.80
their actions are deterministic). 彼らの行動は決定論的です) 0.57
5. Variation in Practice - often (essentially always) medical datasets are not the recordings of a single clinician’s actions but of a mixture or team that consult on an individual patient [51]. 5. 実践の変化 - しばしば(常に)医療データセットは、単一の臨床医の行動の記録ではなく、個々の患者に相談する混合物やチームの記録です [51]。 0.82
With Medkit we can model this effectively using the Mixture policy, which takes any number of policies and a mixing proportion to generate a new mixture policy. medkitでは、任意の数のポリシと混合比率を要し、新しい混合ポリシを生成する混合ポリシを使用して、効果的にモデル化することができます。
訳抜け防止モード: Medkitを使えば、Mixtureポリシーを使ってこれを効果的にモデル化できます。 新しい混合政策を生み出すには 様々な政策と 混合比率が必要です
0.76
Formally, a mixture policy is i wiqi(yt|g((cid:126)xt, (cid:126)yt−1)) where {wi} are the mixing proportions such 形式的には、混合ポリシーは i wiqi(yt|g((cid:126)xt, (cid:126)yt−1)) である。 0.77
given by p(yt|(cid:126)xt, (cid:126)yt−1) =(cid:80) that ∀i, wi > 0 and(cid:80) p(yt|(cid:126)xt, (cid:126)yt−1) =(cid:80) が与えられると、i, wi > 0 と (cid:80) 0.78
i wi = 1, and {qi(·)} are arbitrary base policies. i wi = 1 と {qi(·)} は任意の基本ポリシーである。 0.83
These different policy parameterizations that are in-built into Medkit are specific to scenarios that commonly arise in medicine [18, 51, 36], which is the domain application we consider in this paper. メドキットに組み込まれたこれらの異なるポリシーパラメータ化は、医学で一般的に発生するシナリオに特化しています [18, 51, 36]。
訳抜け防止モード: メドキットに組み込まれたこれらの異なる政策パラメータ化は、医学で一般的に発生するシナリオに特化している[18, 51, 36]。 この論文で検討するドメイン・アプリケーションです
0.82
However, note that the main contribution of Medkit is to provide a framework for obtaining customizable policies. しかし、Medkitの主な貢献は、カスタマイズ可能なポリシーを得るためのフレームワークを提供することである。 0.66
Thus, users could also incorporate different types of policies if needed. したがって、必要に応じて異なるタイプのポリシーを組み込むこともできる。 0.65
4.3 Environments The environment dynamics capture how the patient’s covariates evolve over time given their history, interventions and the patient’s static features. 4.3 環境 環境力学は、患者の歴史、介入、そして患者の静的特徴から、患者の共変量がどのように進化するかを捉えます。 0.68
From the proposed factorisation in Equation (1), to estimate the environment dynamics, we model the following conditional distribution in two parts: 方程式における因子化の提案から, 環境力学を推定するために, 以下の2つの条件分布をモデル化する。 0.82
p((cid:126)xT|(cid:126)yT−1) = P ΩE (xs, x1) Initialisation p((cid:126)xT|(cid:126)yT−1) = P ΩE (xs, x1) 初期化 0.77
(cid:124) (cid:123)(cid:122) (cid:124) (cid:123)(cid:122) 0.77
T(cid:89) t=2 t(cid:89) t=2 0.69
(cid:124) (cid:125) (cid:124) (cid:125) 0.78
P ΩE (xt|fE ((cid:126)xt−1, (cid:126)yt−1)) P ΩE (xt|fE ((cid:126)xt−1, (cid:126)yt−1)) 0.71
, (3) (cid:123)(cid:122) , (3) (cid:123)(cid:122) 0.82
(cid:125) Auto-regression (cid:125) 自己回帰 0.60
allowing for sequential generation of patient trajectories. 患者軌跡のシーケンシャルな生成を可能にする。 0.66
For all environments, we model P ΩE (xs, x1) using a Variational Autoencoder [34],as a powerful generative model that can handle a mixture of continuous and discrete variables. すべての環境に対して、連続変数と離散変数の混合を扱う強力な生成モデルとして、変分オートエンコーダ[34]を用いてP ΩE (xs, x1) をモデル化する。 0.79
For the auto-regressive part, to capture a diverse set of the realistic dynamics of medical datasets, Medkit contains environments that are (1) directly modelling the patient history (T-Force and CRN) and (2) building latent variable models (CSS and SVAE). 自己回帰的な部分において、医療データセットの現実的な動態の多様な集合を捉えるために、Medkitは(1)患者の履歴(T-ForceとCRN)を直接モデル化し、(2)潜伏変数モデル(CSSとSVAE)を構築する環境を含む。 0.75
We describe the models in this section but full details (e g on learning) are given in the Appendix. 本節では,モデルについて述べるが,詳細(学習など)は付録に記載されている。 0.74
Directly modelling the patient history. 患者の歴史を直接モデル化します 0.71
This relates to attempting to model: これはモデル化を試みることに関係しています 0.56
p(xt|(cid:126)xt−1, (cid:126)yt−1) = P ΩE (xt|fE ((cid:126)xt−1, (cid:126)yt−1)) p(xt|(cid:126)xt−1, (cid:126)yt−1) = P ΩE ((cid:126)xt−1, (cid:126)yt−1) 0.78
(4) 6 (4) 6 0.85
英語(論文から抽出)日本語訳スコア
directly, or more specifically that p(xt|(cid:126)xt−1, (cid:126)yt−1) is some Θ parameterised distribution where Θ = f ((cid:126)xt−1, (cid:126)yt−1) is a function of the history only. p(xt|(cid:126)xt−1, (cid:126)yt−1) はθパラメータ化分布であり、θ = f ((cid:126)xt−1, (cid:126)yt−1) は歴史のみの関数である。 0.83
For the simplest environment model, we use a recurrent neural network trained with teacher forcing [52] (T-Force) to directly approximate this function. 最も単純な環境モデルでは、教師の強制[52](T-Force)で訓練されたリカレントニューラルネットワークを用いて、この関数を直接近似する。 0.74
The network is made up of LSTM units [27] followed by fully connected layers with ELU activations [13] and is trained to maximise the likelihood of the next observation given previous observations and interventions. ネットワークは lstm ユニット [27] と elu 活性化 [13] を持つ完全連結層で構成されており、前回の観測と介入によって次の観測の可能性を最大化するように訓練されている。
訳抜け防止モード: ネットワークはLSTMユニット[27]とフル接続層とELUアクティベーション[13]から構成される。 これまでの観察と介入から 次の観測の可能性を最大化するために訓練されています
0.85
This defines a factorised Gaussian and Bernoulli distribution over the continuous and binary covariates respectively with the parameters predicted by the network. これは連続および二項共変体上のガウス分布とベルヌーイ分布を、ネットワークによって予測されるパラメータとそれぞれ定義する。 0.74
Additionally we extend this method by replacing the LSTM network with the Counterfactual Recurrent Network (CRN) of Bica et al [7]. さらに,LSTMネットワークをBicaらのCRN(Counterfactual Recurrent Network)に置き換えることにより,この手法を拡張した。 0.69
CRN is a causal inference method that learns balancing representation of the patients’ histories to remove the time-dependent confounding bias present in observational datasets. CRNは、患者の履歴の表現のバランスを学習し、観察データセットに存在する時間依存的共起バイアスを取り除く因果推論手法である。 0.79
This allows the network to more principally be used for making counterfactual predictions which is what our model for the environment dynamics needs to do when estimating the next state of a patient under different possible interventions specified by the policy QΩ π . これによりネットワークは、qω π で規定される異なる介入の下で患者の次の状態を推定する際に、我々の環境力学モデルが行うべきことである反事実予測を行うために、より主に使用される。
訳抜け防止モード: これにより、ネットワークはより主に、対実的な予測を行うために使用される。 環境力学のモデルでは 政策 QΩ π によって規定される様々な介入により、患者の次の状態を推定する場合。
0.72
Building latent variable models. 潜在変数モデルの構築。 0.78
We also build environment dynamics where the observations are driven by a hidden true state of the patient. また,患者に隠された真の状態によって観察される環境動態も構築する。 0.80
Formally, we assume the features (cid:126)xT are driven by some evolving latent state (cid:126)zT = {zt}T t=1, zt ∈ Z that is not seen in the data by modelling a factorisation given by: 形式的には、これらの特徴 (cid:126)xT は、次の式で与えられる分解をモデル化することによって、データに見られない潜在状態 (cid:126)zT = {zt}T t=1, zt ∈ Z) によって駆動されると仮定する。
訳抜け防止モード: 正式には、これらの特徴(cid:126)xTは進化している潜伏状態(cid:126)zT = { zt}T t=1,と仮定する。 因数分解をモデル化することによってデータに見えないzt ∈ Z
0.72
(cid:125) P ΩE (xt, zt|fE ((cid:126)xt−1, (cid:126)yt−1, (cid:126)zt−1)) = P ΩE (xt|zt, xs) (cid:125) P ΩE (xt, zt|fE ((cid:126)xt−1, (cid:126)yt−1, (cid:126)zt−1)) = P ΩE (xt|zt, xs) 0.75
(cid:123)(cid:122) (cid:123)(cid:122) 0.75
(cid:124) Emission (cid:124) 排出 0.66
(cid:125) (cid:124) × P ΩE (zt|fE ((cid:126)xt−1, (cid:126)yt−1, (cid:126)zt−1)) (cid:125) (cid:124) × P ΩE (zt|fE ((cid:126)xt−1, (cid:126)yt−1, (cid:126)zt−1) 0.72
(cid:123)(cid:122) (cid:123)(cid:122) 0.75
Transition . (5) We include as part of Medkit two additional environment dynamics models for the separate cases when |Z| is finite or uncountable, as both can usefully represent patients in the medical context. 変遷 . (5) 我々は、Medkitの2つの追加環境力学モデルの一部として、|Z| が有限または非可算である場合に、医療的文脈における患者を表わすことができる。
訳抜け防止モード: 変遷 . (5) 我々は Medkit の一部として、|Z| が有限あるいは非可算である場合の別ケースに対する2つの追加環境力学モデルを含める。 医療の文脈で患者を表わすのに役立ちます
0.77
For |Z| finite the latent zt variables then might represent distinct progression “stages” or various classifications of a disease. z| 有限の場合、潜在性 zt 変数は病の異なる「段階」または様々な分類を表す。 0.83
Discrete separation like this is well established in both clinical guidelines and models for a range of cases including transplantation in patients with CF [8], the diagnosis of Alzheimer’s disease [45], and cancer screening [47]. このような離散的な分離は、CF[8]患者の移植、アルツハイマー病の診断[45]、がんスクリーニング[47]など、臨床ガイドラインとモデルの両方において確立されている。
訳抜け防止モード: このような分離は, cf[8]患者の移植を含め, 臨床ガイドラインとモデルの両方においてよく確立されている。 アルツハイマー病(45例)とがんスクリーニング(47例)の診断を行った。
0.76
Accordingly we use the Attentive StateSpace model of [3] to build an attention-based, customised state-space (CSS) representation of disease progression. したがって、注意に基づくカスタマイズされた状態空間(css)による疾患進行の表現を構築するために、[3]の注意状態空間モデルを使用する。
訳抜け防止モード: したがって、[3 ]の Attentive StateSpace モデルを使用します。 to build an attention - based, customized state - space ( CSS ) representation of disease progression.
0.81
This environment model accounts for static features and allows Medkit users to customise the attention mechanism. この環境モデルは静的な特徴を考慮し、Medkitユーザは注意機構をカスタマイズできる。 0.80
Given a discrete latent space, the transitions are parameterised with baseline transition matrices for each action averaged over attention weights on previous timesteps. 離散的な潜在空間が与えられると、遷移は前回の時間ステップにおける注意重みよりも平均化された各アクションのベースライン遷移行列でパラメータ化される。 0.63
The emission distribution allows for a flexible representation: let pψ(xt) be any distribution with support over X and parameter(s) ψ (for example some Gaussian mixture) then we let: 放射分布は、柔軟な表現を可能にする: pψ(xt) を任意の分布とし、x とパラメーター(s) ψ(例えば、ガウス混合)上でサポートするとすると、次のようになる。 0.71
p(xt|zt, xs) = pψ∗ (xt), with ψ∗ = fγ(zt, xs). p(xt|zt, xs) = p ∗(xt) で、a ∗ = fγ(zt, xs) である。 0.87
(6) We take fγ to be a γ-parameterised function approximator to output the parameters of the emission distribution given the current state and static features of the patient - a standard choice being an MLP that takes in the concatenation of zt and xs. (6)fγをγパラメトリド関数近似器とし,ztとxsの連結を考慮したMLPを選択することで,患者の現在の状態と静的特徴から放射分布のパラメータを出力する。 0.73
This alleviates a common problem with state-space models where the observations are ultimately drawn from some finite mixture of distributions of order |Z|, as now the dependence on the static features allows for a very flexible output. これは状態空間モデルにおいて共通の問題を緩和するものであり、観測は最終的に順序 |z| の分布の有限混合から引き起こされる。
訳抜け防止モード: これは状態-観測が最終的に位数 |Z| の分布の有限混合から引き出される空間モデルとの共通問題を緩和する。 静的な機能への依存は、非常に柔軟な出力を可能にします。
0.80
The CSS dynamics model allows Medkit users to post-hoc customise the number of states and the Markovianity of the environment through the attention mechanism (e.g users can pass a vector that specifies exact weights or an integer representing the number of states back to look.) css dynamicsモデルにより、medkitユーザは、注意機構を通じて、状態の数と環境のマルコビアンをカスタマイズすることができる(例えば、ユーザは、正確な重みを指定するベクターや、参照する状態の数を表す整数を渡すことができる)。 0.75
While a discrete representation of hidden states is convenient for interpretation, it does simplify the problem. 隠れた状態の離散表現は解釈に便利であるが、問題を単純化する。 0.72
It is unlikely that all of the relevant features of a disease can be adequately captured by a discrete characterisation - it would seem that in reality diseases evolve gradually and without step-change. 病気の全ての関連する特徴が離散的な特徴付けによって適切に捉えられる可能性は低いが、現実の疾患は段階的な変化なしに徐々に進化していくように見える。 0.68
Therefore, to further improve the realism of the generated trajectories, we also include as part of Medkit’s environments a deep continuous state space model that extends VAEs in a sequential manner (SVAE). したがって、生成された軌道のリアリズムをさらに改善するために、メドキット環境の一部として、VAEを逐次的に拡張する深い連続状態空間モデル(SVAE)も含んでいる。 0.78
Principally now we consider a continuous latent state with Z = Rd. 主に、Z = Rd を持つ連続潜在状態を考える。 0.60
This then allows for more flexibility in the transition dynamics, in particular by making use of neural architectures. これにより、特にニューラルネットワークの利用によって、トランジッションダイナミクスの柔軟性が向上する。 0.64
An encoder network predicts the approximate posterior over the latent variables and we employ essentially the same method as for teacher forcing in order to model dynamics in the latent space. エンコーダネットワークは、潜在変数の近似後続を予測し、潜在空間のダイナミクスをモデル化するために教師強制法と本質的に同じ方法を用いる。 0.71
With a joint optimisation scheme, we learn a representation that generates the observations well but also captures the features relevant for the transitions. 共同最適化スキームでは、観測をうまく生成するだけでなく、遷移に関連する特徴をキャプチャする表現を学習する。 0.68
This expressiveness allows for a higher fidelity model than the custom state-space but however comes at the cost of interpretable structure which we have established may be useful should algorithms be designed to uncover such things. この表現性は、カスタムの状態空間よりも高い忠実度モデルを可能にするが、我々が確立した解釈可能な構造のコストは、そのようなことを明らかにするアルゴリズムが設計されている場合に役立つかもしれない。 0.61
Modelling hidden confounding. 隠れた境界のモデリング。 0.51
A common assumption, that is likely not true in practice, is that there are no hidden confounding variables in the environment. 実際には当てはまらないと思われる一般的な仮定は、環境内に隠れた共起変数がないことである。 0.74
Medkit allows us to introduce and Medkitは私たちに紹介と紹介を可能にします 0.51
7 7 0.85
英語(論文から抽出)日本語訳スコア
Figure 3: Exploring Medkit Practically. 図3: 実際にMedkitを探索する。 0.64
Example benefits of Medkit for exploring and benchmarking imitation learning algorithms. medkitによる模倣学習アルゴリズムの探索とベンチマークの例。 0.67
control these by using a full set of variables to generate both the actions and the observations but restrict the visibility of some such that they become hidden. アクションと観測の両方を生成するために変数の完全なセットを使用することでこれらを制御するが、隠されるような可視性を制限する。 0.76
While the overall generative process p((cid:126)xT , (cid:126)yT ) is left unchanged, only a partially-hidden dataset D = {(cid:126)xT(cid:104) ¯X (cid:48)(cid:105), (cid:126)yT} is provided to the user, where X (cid:48) is a subspace of X and (cid:126)xT(cid:104) X (cid:48)(cid:105) = xs ∪ {projX (cid:48) xt}T t=1. 全体の生成過程 p((cid:126)xT , (cid:126)yT ) は変更されていないが、X (cid:126)xT(cid:48)( cid:105), (cid:126)yT} が X の部分空間であり (cid:126)xT(cid:104) X (cid:48)(cid:105) = xs は {projX (cid:48) xt}T t=1 である部分隠れデータセット D = {(cid:126)xT(cid:104) である。 0.80
Here, the dimensionality of X (cid:48) relative to X given as dimX (cid:48)/ dimX can be used as a measure of the overall confoundedness. ここでは、 dimX (cid:48)/ dimX として与えられる X に対する X の次元性 (cid:48) を全体整合性の尺度として用いることができる。 0.78
5 Practical Demonstrations In this section we explore some examples of the benefits of using Medkit compared to existing benchmarks as well as highlight some potential use cases, in particular how Medkit allows for consistent and systematic evaluation along with useful ground truth information. 5つの実演 本稿では、既存のベンチマークと比較してMedkitを使うことの利点の例を紹介するとともに、潜在的なユースケースを強調します。
訳抜け防止モード: 5つの実演 本稿では、既存のベンチマークと比較してMedkitを使用するメリットの例を紹介し、潜在的なユースケースを強調します。 特にメドキットは、有用な基底真理情報とともに、一貫性と体系的な評価を可能にする。
0.62
Different reactions to shifting policies. 方針転換に対する異なる反応。 0.79
The current literature on imitation learning focuses on very different environments to those found in the medical setting and consequently algorithms may not be evaluated against, or designed to be appropriate for, the quirks of medical data. 現在の模倣学習に関する文献は、医療現場で見られるものとは全く異なる環境に焦点を当てており、その結果、アルゴリズムは医療データのクイックに対して評価できないか、あるいは適切な設計がなされていない。 0.64
For example in Figure 3a we plot the performance of algorithms as the consistency of the policy varies, in particular we use: Behavioural Cloning (BC) with a deep Q-network; Reward-regularized Classification for Apprenticeship Learning (RCAL) [48], where the network is regularised such that the implicit rewards are sparse; ValueDICE (VDICE) [37], an offline adaptation of the adversarial imitation learning framework; and Energy-based Distribution Matching (EDM) [31] that uses the implicit energy-based model to partially correct for the off-policy nature of BC. For example in Figure 3a we plot the performance of algorithms as the consistency of the policy varies, in particular we use: Behavioural Cloning (BC) with a deep Q-network; Reward-regularized Classification for Apprenticeship Learning (RCAL) [48], where the network is regularised such that the implicit rewards are sparse; ValueDICE (VDICE) [37], an offline adaptation of the adversarial imitation learning framework; and Energy-based Distribution Matching (EDM) [31] that uses the implicit energy-based model to partially correct for the off-policy nature of BC. 0.96
What is interesting is not that performance degrades - this is of course to be expected, but rather that the comparative ranking of algorithms changes as a function of the consistency. 興味深いのは,パフォーマンスが低下する点ではなく,一貫性の関数としてアルゴリズムの比較ランクが変わる点だ。 0.61
In particular BC performs the worst (although there is little between them) in the ends up outperform the rest on average when the variation is highest, suggesting some of the more complicated algorithms are not robust to these kinds of policies. 特に、BCは(両者の間にはほとんどないが)最悪の処理をし、変動が最も高い場合、残りは平均的にパフォーマンスを上回り、より複雑なアルゴリズムのいくつかはこの種のポリシーに対して堅牢ではないことを示唆している。 0.65
Enabling consistent evaluation. 一貫性のある評価の実施。 0.46
Common RL benchmarks like Atari experience very large variances in the accumulated reward an agent obtains when deployed in the environment, especially when the reward is sparse. Atariのような一般的なRLベンチマークは、エージェントが環境にデプロイした時に得られる累積報酬に非常に大きなばらつきを経験する。 0.77
This can make evaluation and ranking of agents tricky or at least require a large number of runs in the environment before the variance of the estimator suggests the results are significant. これにより、エージェントの評価とランク付けが難しいか、あるいは少なくとも、評価者のばらつきが重要な結果をもたらす前に、環境における大量の実行が必要になる可能性がある。 0.60
In Figure 3b we demonstrate this problem in an even simpler context comparing BC to the AVRIL algorithm of [11], a method for approximate Bayesian IRL, in the simple Acrobot environment where the aim is to swing up a pendulum to a correct height. 図3bでは、ペンデュラムを正しい高さに振り上げることを目的とした単純な交流ロボット環境で、bc と近似ベイズ irl の手法である [11] の avril アルゴリズムを比較し、より単純な文脈でこの問題を実証する。 0.68
On the right y-axis we plot the accumulated regret over training of the two agents, and large inconsistencies in return can be seen so that it is not clear which of the agents is better. 右のy軸では、2つのエージェントの訓練で蓄積した後悔をプロットし、大きな矛盾を見ることができるので、どちらのエージェントが良いのかがはっきりしない。 0.64
Comparatively on the left y-axis we plot the AUROC on a held out test set as we train on Medkit data, here evaluation is much more consistent and statistically significant, demonstrating clearly which algorithm is performing better. 左側のy軸で比較して、aurocを保留テストセットにプロットし、medkitデータをトレーニングすると、この評価はより一貫性があり、統計的に有意であり、どのアルゴリズムが優れているかを明確に示します。
訳抜け防止モード: 左y軸の比較 私たちは、Medkitデータでトレーニングする際、ホールドアウトテストセットでAUROCをプロットします。 ここでの評価は より一貫性があり 統計的に重要なものです どのアルゴリズムが優れているかを明確に示します
0.65
Ground-truth knowledge comparison. While in the end it only really matters how an algorithm performs when deployed in the real world, it is challenging to only use real data to validate them. 地道的知識の比較。 結局のところ、それはアルゴリズムが現実世界にデプロイされたときにどのように機能するかにのみ問題となるが、実際のデータのみを使用して検証することは難しい。 0.61
This is since you run into the key problem that you will not have any knowledge of the ground truth behind decisions and so methods that claim to gain insight into such areas cannot possibly be evaluated appropriately. これは、決定の背後にある根拠の真理に関する知識がないという重要な問題に突き当たったためであり、そのような領域について洞察を得ることを主張する手法は、適切に評価できない可能性がある。 0.58
On the other hand simulating data in Medkit allows us to do exactly this, and we can compare inferences from an algorithm to underlying truth in the generating process. 一方、Medkitでデータをシミュレートすることで、正確にこれを行うことができ、生成プロセスにおけるアルゴリズムからの推論と基礎となる真理を比較することができる。 0.69
A toy example is shown in Figure 3c where we compare the weights of a linear classifier trained on Medkit data to those of the true underlying policy, representing the relative feature importances for the policies. 図3cでは、Medkitデータに基づいて訓練された線形分類器の重みと真に根底にあるポリシーの重みを比較し、ポリシーの相対的な特徴の重要性を表現している。 0.68
8 0246810IndLvLduDl VDrLDtLRn0.600.650.7 00.750.800.85AccurDc yPerIRrPDnce Ds VDrLDtLRn IncreDsesBCVDICE5CAL ED0BHst 0otor 5Hsp.BHst VHrEDl 5Hsp.ChloriGHCrHDtin HinHDBPEyH 2pHningGlucosHGCS ScorHHHmogloEinPlDtH lHt CountPotDssiumPulsH5 HspirDtory 5DtHSBPSoGiumSp227ot Dl C227HmpHrDturHUrHD 1itrogHnWBC CountCovDriDtH−1.00−0.75−0.50−0.250.000.250.500.75 WHight VDluHGrounG-truth WHight CompDrisonLHDrnt WHightsGrounG-truth WHights0200400600800 10007raining Iteration0.40.50.60. 70.80.90edkit A852CA95IL - 0.BC - 0.010020030040050060 0AcroEot 5egret9ariance in EvaluationA95IL - ABBC - ABa)b)c) 8 0246810IndLvLduDl VDrLDtLRn0.600.650.7 00.750.800.85AccurDc yPerIRrPDnce Ds VDrLDtLRn IncreDsesBCVDICE5CAL ED0BHst 0otor 5Hsp.BHst VHrEDl 5Hsp.ChloriGHCrHDtin HinHDBPEyH 2pHningGlucosHGCS ScorHHHmogloEinPlDtH lHt CountPotDssiumPulsH5 HspirDtory 5DtHSBPSoGiumSp227ot Dl C227HmpHrDturHUrHD 1itrogHnWBC CountCovDriDtH−1.00−0.75−0.50−0.250.000.250.500.75 WHight VDluHGrounG-truth WHight CompDrisonLHDrnt WHightsGrounG-truth WHights0200400600800 10007raining Iteration0.40.50.60. 70.80.90edkit A852CA95IL - 0.BC - 0.010020030040050060 0AcroEot 5egret9ariance in EvaluationA95IL - ABBC - ABa)b)c)
訳抜け防止モード: 8 0246810IndLvLduDl VDrLDtLRn0.600.650.7 00.800.85AccurDcyPer IRrPDnce Ds VDrLDtLRn IncreDsesBCVDICE5CAL ED0BHst 0otor 5Hsp . BHst VHrEDl 5Hsp ChloriGHCrHDtinHinHD BPEyH 2pHningGlucosHGCS ScorHHHmogloEinPlDtH lHt CountPotDsiumPulsH5H spirDtory 5DtHSBPSoGiumSp227ot Dl C227HmpHrDturHUrHD 1itrogHnWBC CountCovDriDtH−1.00−0.75−0.50−0.250.000.250.500.75 WHight VDluHGrounG - truth WHight CompDrisonLHDrnt WHightsGrounG - truth WHight02006006006006 00600600600raier Iterer0.50.50.50.50. 50.500)
0.65
英語(論文から抽出)日本語訳スコア
. d e r P |Y| ↑ 2 4 8 ↓ 2 4 8 . d e r P |Y| ↑ 2 4 8 ↓ 2 4 8 0.89
. c s i D CSS . c s i D CSS 0.85
CRN Table 2: Predictive and Discriminative Scores. CRN 表2: 予測と差別のスコア。 0.79
Scores reported on the different environments for the Wards domain. ScoresはWardsドメインの異なる環境についてレポートした。 0.69
T-Force 0.67 ± 0.05 0.94 ± 0.01 0.94 ± 0.01 0.93 ± 0.01 0.62 ± 0.02 0.85 ± 0.01 0.86 ± 0.01 0.86 ± 0.02 0.61 ± 0.05 0.85 ± 0.03 0.89 ± 0.02 0.87 ± 0.04 0.41 ± 0.03 0.23 ± 0.02 0.19 ± 0.03 0.22 ± 0.04 0.41 ± 0.05 0.24 ± 0.04 0.19 ± 0.04 0.23 ± 0.04 0.37 ± 0.07 0.22 ± 0.03 0.20 ± 0.03 0.20 ± 0.02 T-Force 0.67 ± 0.05 0.94 ± 0.01 0.94 ± 0.01 0.93 ± 0.01 0.62 ± 0.02 0.85 ± 0.01 0.86 ± 0.01 0.86 ± 0.02 0.61 ± 0.05 0.85 ± 0.03 0.89 ± 0.02 0.87 ± 0.04 0.41 ± 0.03 0.23 ± 0.02 0.19 ± 0.03 0.22 ± 0.04 0.41 ± 0.05 0.24 ± 0.04 0.19 ± 0.04 0.23 ± 0.04 0.37 ± 0.07 0.22 ± 0.03 0.20 ± 0.03 0.20 ± 0.02 0.51
Figure 4: t-SNE plots For each policy in the Ward environment we generate simulated data. 図4: t-SNEプロット ウォード環境の各ポリシーでは、シミュレーションデータを生成します。 0.74
We then apply t-SNE and project the real and simulated data into two components, which is plotted. 次に、t-SNEを適用し、実データとシミュレーションデータを2つのコンポーネントにプロットする。 0.69
Validating realism. It is also of interest to quickly check that we are not generating completely unrealistic trajectories, rather ones that capture appropriate properties that will be useful for users. 現実主義の検証。 また、ユーザが役に立つ適切なプロパティをキャプチャする代わりに、完全に非現実的なトラジェクタを生成するわけではないことをすばやく確認することも興味深いです。 0.58
We thus provide comparisons of the available environment models in Medkit. そこで我々は,Medkitで利用可能な環境モデルの比較を行った。 0.68
In particular for each combination we show in Table 2: the Predictive Score, a classical “train on synthetic - test on real” evaluation where a network is trained on the synthetic dataset and applied to a held out test set of the real data, where the performance is reported; and the Discriminitive Score, where a classifier is trained to distinguish between the real and synthetic data, and the AUROC of this task on a held out test set is reported. 特に表2で示すように、予測スコア(Predictive Score)は、合成データセット上でネットワークをトレーニングし、実データの保持されたテストセットに適用する古典的な「合成テスト」評価であり、実データと合成データを区別するために分類器を訓練する識別スコア(Distriminitive Score)と、保持されたテストセット上のこのタスクのAUROC(AUROC)を報告している。 0.69
In aid of visualisation we also provide in Figure 4 a set of t-SNE plots [40] overlaying the real and synthetic data. 可視化のために、図4では、実データと合成データをオーバーレイするt-SNEプロット [40] のセットも提供します。 0.72
These metrics are standard in the synthetic data literature [53] and reflect the usefulness of the synthetic data as a replacement for real data. これらの指標は, 合成データ文献[53]では標準的であり, 実データの代わりに合成データの有用性を反映している。 0.81
Please note though that the highest possible fidelity is not the point of Medkit: unlike traditional synthetic data, the datasets we produce are not meant to be used as a substitute for real data in training machine learning algorithms. 私たちが生成するデータセットは、従来の合成データとは異なり、機械学習アルゴリズムのトレーニングにおいて、実際のデータの代用として使用されるものではない。
訳抜け防止モード: ただし、可能な限りの忠実さはメドキットのポイントではないことに注意してください。 従来の合成データとは異なり 機械学習アルゴリズムのトレーニングにおいて、実際のデータの代わりに使われること。
0.71
Rather we would like to produce realistic data that reflects the difficulties of the medical setting and can be used for development and benchmarking of algorithms. むしろ、医療環境の難しさを反映したリアルなデータを作成し、アルゴリズムの開発とベンチマークに使用したいと考えています。 0.62
Additionally, by introducing customisations into the generative process, we will naturally see departures from real data, but given our goals this is not a problem. さらに、生成プロセスにカスタマイズを導入することで、実際のデータからの離脱を自然に見ることができますが、私たちの目標を考えると、これは問題ではありません。
訳抜け防止モード: さらに、生成プロセスにカスタマイズを導入することで、実際のデータからの離脱が自然に見られます。 目標を考えれば これは問題ではありません
0.66
Nevertheless, the high predictive scores show that Medkit is successfully capturing important trends in the real data that are useful for prediction, while the discriminative scores and t-SNE plots confirm that we are not producing trajectories that are unrepresentative. それでも、高い予測スコアは、Medkitが予測に有用な実データにおいて重要なトレンドを捉えていることを示しているが、識別スコアとt-SNEプロットは、表現できない軌道を生成していないことを確認している。 0.59
6 Discussion Limitations and Societal Impact. 6 議論の限界と社会的影響 0.70
As a synthetic data generator, Medkit is inherently limited by the power of the individual models used and their ability to accurately model outcomes given specified policies. 合成データジェネレータとして、メドキットは、使用する個々のモデルのパワーと、指定されたポリシーを正確にモデル化する能力によって本質的に制限されている。 0.56
This is not such a problem when the focus is on inference over the policy though, as is the focus in decision modelling. しかし、政策に対する推論に焦点が当てられている場合や、意思決定モデリングに焦点が当てられている場合の問題ではない。 0.66
Additionally, Medkit is easily extendable when new, more powerful, models become available. さらに、Medkitは、新しいより強力なモデルが利用可能になると容易に拡張できる。 0.73
With Medkit our aim is to provide a platform allowing for better development of decision modelling algorithms, the societal impact thus very much depends on the potential use of such algorithms, for example, they could be used to misrepresent an individual’s position or identify biases that could be exploited. 私たちの目標は、意思決定モデリングアルゴリズムのより良い開発を可能にするプラットフォームを提供することです。社会的影響は、例えば、個人の位置を誤って表現したり、悪用される可能性のあるバイアスを特定するために、そのようなアルゴリズムの潜在的な使用に大きく依存します。 0.66
By focusing on clinical decision support, we hope to promote a much more beneficial approach. 臨床意思決定支援に焦点をあてることで、より有益なアプローチを推進したいと考えています。 0.63
Conclusions. We have presented the Medkit-Learn(ing) Environment, a benchmarking suite for medical sequential decision making. 結論。 我々は、医用シーケンシャルな意思決定のためのベンチマークスイートであるMedkit-Learn(ing)環境を紹介した。 0.56
As with many software libraries, the work is never done and there are always new features that can be added. 多くのソフトウェアライブラリと同様に、作業は決して完了せず、追加可能な新機能は常に存在する。 0.84
Indeed we can, and intend to, always continue to add more tools and algorithms to be beneficial for the community. 実際、私たちは常に、コミュニティにとって有益なツールやアルゴリズムを追加し続けます。
訳抜け防止モード: 確かに私たちは するつもりよ コミュニティにとって有益なツールやアルゴリズムは,常に追加されています。
0.72
One important future area that Medkit could make an impact in is causality - an area where more than ever synthetic data is important such that we can actually evaluate the counterfactuals that are inherently missing from real data, and much can be done to simulate data for individualised treatment estimation for example. medkitが影響をもたらす可能性のある重要な将来領域のひとつが因果性(causality)である。これは、実データから本質的に欠落している偽物を評価するために、これまでになく多くの合成データが重要である領域であり、例えば、個別化された治療評価のためにデータをシミュレートするために多くのことができる。
訳抜け防止モード: メドキットが影響を及ぼす重要な将来領域は因果関係(因果関係)である。 実際のデータから本質的に欠落している 偽造品を実際に評価できます 例えば、個別の治療法推定のためのデータをシミュレートするために、多くのことができます。
0.75
Overall though our aim with Medkit is to advance the development of algorithms for understanding, not just imitating, decision making so that we can better support those high-stakes decisions such as in the clinical setting without replacing the crucial human aspect needed when the problem is so important. 全体としては、medkitの目標は、単に意思決定を模倣するだけでなく、理解するためのアルゴリズムの開発を進めることです。
訳抜け防止モード: 全体としては、medkitの目標は、単なる模倣ではなく、理解のためのアルゴリズムの開発を前進させることです。 問題が非常に重要である場合に、必要な重要な人間的側面を置き換えること。
0.54
S-VAE 9 −10−50510x−20−15−10−505101520yC51 t-S1E plot5ealSimulated−15−10−5051015x−10−50510yStateSpace t-S1E plot5ealSimulated−10−50510x−15−10−5051015ySVAE t-S1E plot5ealSimulated−15−10−5051015x−15−10−5051015yTForFe t-S1E plot5ealSimulated S-VAE 9 10−50510x−20−15−10−50515yC51 t-S1E plot5ealSimulated−15−10−50515x−10−50510yStateSpace t-S1E plot5ealSimulated−10−50510x−15−10−50515ySVAE t-S1E plot5ealSimulated−15−10−50515x−15−10−50515yTForFe t-S1E plot5ealSimulated 0.53
英語(論文から抽出)日本語訳スコア
References [1] Abbeel, P. and Ng, A. Y. 参照 [1] Abbeel, P. and Ng, A. Y。 0.90
(2004). Apprenticeship learning via inverse reinforcement learning. (2004). 逆強化学習による見習い学習 0.77
In Proceedings of the twenty-first international conference on Machine learning, page 1. 院 機械学習に関する第21回国際会議、ページ1。 0.58
[2] Alaa, A., Chan, A. J., and van der Schaar, M. (2021). [2] Alaa, A., Chan, A. J., van der Schaar, M. (2021)。 0.83
Generative time-series modeling with fourier flows. 時系列生成モデル フーリエ・フロー 0.52
In International Conference on Learning Representations. 学習表現に関する国際会議に参加。 0.79
[3] Alaa, A. M. and van der Schaar, M. (2019). [3] Alaa, A. M. and van der Schaar, M. (2019)。 0.94
Attentive state-space modeling of disease progression. 疾患進行の注意的状態空間モデリング 0.79
In Advances in Neural Information Processing Systems, pages 11338–11348. In Advances in Neural Information Processing Systems, page 11338–11348. 0.98
[4] Alaa, A. M., Yoon, J., Hu, S., and Van der Schaar, M. (2017). [4] Alaa, A. M., Yoon, J., Hu, S., Van der Schaar, M. (2017)。 0.84
Personalized risk scoring for critical care prognosis using mixtures of gaussian processes. ガウス過程の混合を用いた重症度予後の個人化リスクスコア 0.59
IEEE Transactions on Biomedical Engineering, 65(1):207–218. IEEE Transactions on Biomedical Engineering, 65(1):207–218。 0.91
[5] Bellemare, M. G., Naddaf, Y., Veness, J., and Bowling, M. (2013). 5] Bellemare, M. G., Naddaf, Y., Veness, J., and Bowling, M. (2013)。 0.83
The arcade learning environment: An evaluation platform for general agents. アーケード学習環境:一般エージェントのための評価プラットフォーム。 0.67
Journal of Artificial Intelligence Research, 47:253–279. Journal of Artificial Intelligence Research, 47:253–279。 0.78
[6] Bewley, T., Lawry, J., and Richards, A. 6] Bewley, T., Lawry, J., and Richards, A. 0.78
(2020). Modelling agent policies with interpretable (2020). 解釈可能なエージェントポリシーのモデル化 0.76
imitation learning. arXiv preprint arXiv:2006.11309. 模倣学習。 arXiv preprint arXiv:2006.11309。 0.62
[7] Bica, I., Alaa, A. M., Jordon, J., and van der Schaar, M. (2020). [7] Bica, I., Alaa, A. M., Jordon, J., and van der Schaar, M. (2020)。 0.87
Estimating counterfactual treatment outcomes over time through adversarially balanced representations. 対向的バランスの取れた表現を通して、時間とともに反現実的な治療結果を予測する。 0.39
In International Conference on Learning Representations. 学習表現に関する国際会議に参加。 0.79
[8] Braun, A. T. and Merlo, C. A. [8]Braun, A. T. and Merlo, C. A. 0.84
(2011). Cystic fibrosis lung transplantation. (2011). 嚢胞性線維症肺移植。 0.77
Current opinion in pulmonary medicine, 17(6):467–472. 現状 肺医学、17(6):467–472。 0.49
[9] Brockman, G., Cheung, V., Pettersson, L., Schneider, J., Schulman, J., Tang, J., and Zaremba, W. [9]ブロックマン,G.,チュン,V.,ペッターソン,L.,シュナイダー,J.,シュルマン,J.,唐,J.,ザレンバ,W. 0.66
(2016). Openai gym. (2016). オープンアイジム。 0.70
[10] Chakraborti, T., Fadnis, K. P., Talamadupula, K., Dholakia, M., Srivastava, B., Kephart, J. O., and Bellamy, R. K. (2018). [10]Chakraborti, T., Fadnis, K. P., Talamadupula, K., Dholakia, M., Srivastava, B., Kephart, J. O., Bellamy, R. K. (2018). 0.91
Visualizations for an explainable planning agent. 説明可能な計画エージェントの可視化。 0.76
In Proceedings of the 27th International Joint Conference on Artificial Intelligence, pages 5820–5822. 第27回人工知能国際共同会議の議事録5820-5822頁。 0.65
[11] Chan, A. J. and van der Schaar, M. (2021). [11] Chan, A. J. and van der Schaar, M. (2021年) 0.90
Scalable Bayesian inverse reinforcement learning. スケーラブルベイズ逆強化学習。 0.58
In International Conference on Learning Representations. 学習表現に関する国際会議に参加。 0.79
[12] Chou, R., Qaseem, A., Snow, V., Casey, D., Cross, J. T., Shekelle, P., and Owens, D. K. (2007). 12] Chou, R., Qaseem, A., Snow, V., Casey, D., Cross, J. T., Shekelle, P., and Owens, D. K. (2007). 0.89
Diagnosis and treatment of low back pain: a joint clinical practice guideline from the american college of physicians and the american pain society. 腰痛の診断と治療:american college of physiciansとamerican pain societyの合同臨床ガイドライン。 0.53
Annals of internal medicine, 147(7):478–491. 内科日記 147(7):478–491。 0.71
[13] Clevert, D.-A., Unterthiner, T., and Hochreiter, S. (2015). [13]Clevert, D.-A., Unterthiner, T., and Hochreiter, S. (2015)。 0.95
Fast and accurate deep network 高速で正確なディープネットワーク 0.75
learning by exponential linear units (elus). 指数線形単位(elus)による学習。 0.68
arXiv preprint arXiv:1511.07289. arXiv preprint arXiv:1511.07289 0.71
[14] Dash, S., Yale, A., Guyon, I., and Bennett, K. P. (2020). 14] Dash, S., Yale, A., Guyon, I., and Bennett, K. P. (2020). 0.86
Medical time-series data generation using generative adversarial networks. 生成逆ネットワークを用いた医用時系列データ生成 0.77
In International Conference on Artificial Intelligence in Medicine, pages 382–391. 医学における人工知能に関する国際会議』382-391頁。 0.72
Springer. [15] Dinh, L., Sohl-Dickstein, J., and Bengio, S. (2016). Springer [15]Dinh, L., Sohl-Dickstein, J., and Bengio, S. (2016)。 0.73
Density estimation using real nvp. 実nvpを用いた密度推定 0.85
arXiv preprint arXiv:1605.08803. arXiv arXiv:1605.08803 0.74
[16] Du, J., Futoma, J., and Doshi-Velez, F. (2020). [16] Du, J., Futoma, J., and Doshi-Velez, F. (2020) 0.91
Model-based reinforcement learning for モデルに基づく強化学習 0.91
semi-markov decision processes with neural odes. 神経オードによる半マルコフ決定過程。 0.64
arXiv preprint arXiv:2006.16210. arXiv preprint arXiv:2006.16210 0.72
[17] Dwork, C., Roth, A., et al (2014). [17]Dwork, C., Roth, A., et al (2014)。 0.81
The algorithmic foundations of differential privacy. 差分プライバシーのアルゴリズムの基礎。 0.67
Founda- tions and Trends in Theoretical Computer Science, 9(3-4):211–407. ふたた- 9(3-4):211–407。 0.32
[18] Eccles, M. P., Hrisos, S., Francis, J., Kaner, E. F., Dickinson, H. O., Beyer, F., and Johnston, M. (2006). Eccles, M. P., Hrisos, S., Francis, J., Kaner, E. F., Dickinson, H. O., Beyer, F., and Johnston, M. (2006). 0.84
Do self-reported intentions predict clinicians’ behaviour: a systematic review. 自己報告した意図は臨床医の行動を予測します。 0.55
Implementation Science, 1(1):1–10. 実施科学 1(1):1–10。 0.77
[19] Elbers, P. W. G. (2019). [19]Elbers, P. W. G. (2019)。 0.87
AmsterdamUMCdb v1.0.2 ICU database. AmsterdamumCdb v1.0.2 ICUデータベース 0.64
[20] Esteban, C., Hyland, S. L., and Rätsch, G. (2017). [20]Esteban, C., Hyland, S. L., Rätsch, G. (2017)。 0.79
Real-valued (medical) time series generation 実数値(医療)時系列生成 0.81
with recurrent conditional gans. 繰り返しの条件付きganで。 0.53
arXiv preprint arXiv:1706.02633. arXiv preprint arXiv:1706.02633 0.72
[21] Facebook (2020). 21) facebook (2020)。 0.63
Opacus PyTorch library. Opacus PyTorchライブラリ。 0.79
[22] Futoma, J., Hughes, M. C., and Doshi-Velez, F. (2020). [22]Futoma, J., Hughes, M. C., Doshi-Velez, F. (2020) 0.87
Popcorn: Partially observed prediction International Conference on Artificial Intelligence and Popcorn: 部分的に観察された人工知能に関する国際会議 0.70
constrained reinforcement learning. Statistics (AISTATS). 強化学習の制約。 統計学(AISTATS)。 0.79
10 10 0.85
英語(論文から抽出)日本語訳スコア
[23] Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., and Bengio, Y. [23]Goodfellow, I.,Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., Bengio, Y。 0.89
(2014). Generative adversarial nets. (2014). 敵ネットの生成。 0.74
Advances in neural information processing systems, 27:2672–2680. ニューラル情報処理システムの進歩、27:2672–2680。 0.70
[24] Gottesman, O., Futoma, J., Liu, Y., Parbhoo, S., Brunskill, E., Doshi-Velez, F., et al (2020). [24]Gottesman, O., Futoma, J., Liu, Y., Parbhoo, S., Brunskill, E., Doshi-Velez, F., et al (2020)。 0.85
Interpretable off-policy evaluation in reinforcement learning by highlighting influential transitions. 影響力のある変遷を強調する強化学習における解釈可能なオフポリシー評価 0.61
arXiv preprint arXiv:2002.03478. arXiv preprint arXiv:2002.03478 0.71
[25] Gottesman, O., Johansson, F., Komorowski, M., Faisal, A., Sontag, D., Doshi-Velez, F., and Celi, L. A. [25]Gottesman, O., Johansson, F., Komorowski, M., Faisal, A., Sontag, D., Doshi-Velez, F., Celi, L.A。 0.84
(2019). Guidelines for reinforcement learning in healthcare. (2019). 医療における強化学習のガイドライン 0.82
Nature medicine, 25(1):16–18. 医学博士(25(1):16-18)。 0.52
[26] Gulcehre, C., Wang, Z., Novikov, A., Paine, T., Gómez, S., Zolna, K., Agarwal, R., Merel, J. S., Mankowitz, D. J., Paduraru, C., et al (2020). [26]Gulcehre, C., Wang, Z., Novikov, A., Paine, T., Gómez, S., Zolna, K., Agarwal, R., Merel, J. S., Mankowitz, D. J., Paduraru, C., et al (2020) 0.85
Rl unplugged: A collection of benchmarks for offline reinforcement learning. Rl unplugged: オフラインの強化学習のためのベンチマークのコレクション。 0.72
Advances in Neural Information Processing Systems, 33. 神経情報処理システムの進歩33。 0.59
[27] Hochreiter, S. and Schmidhuber, J. [27]Hochreiter, S. and Schmidhuber, J. 0.89
(1997). Long short-term memory. (1997). 短期記憶。 0.70
Neural computation, 9(8):1735–1780. 神経計算 9(8):1735–1780. 0.63
[28] Hüyük, A., Jarrett, D., Tekin, C., and van der Schaar, M. (2021). [28]Hüyük, A., Jarrett, D., Tekin, C., van der Schaar, M. (2021)。 0.79
Explaining by imitating: Understanding decisions by interpretable policy learning. 模倣による説明: 政策学習の解釈による意思決定の理解。 0.71
In International Conference on Learning Representations. 学習表現に関する国際会議に参加。 0.79
[29] Jain, V., Doshi, P., and Banerjee, B. [29]jain, v., doshi, p., banerjee, b。 0.63
(2019). Model-free irl using maximum likelihood estimation. (2019). 最大確率推定を用いたモデルフリーirl 0.79
In Proceedings of the AAAI Conference on Artificial Intelligence, volume 33, pages 3951–3958. The Proceedings of the AAAI Conference on Artificial Intelligence, Volume 33, page 3951–3958。 0.85
[30] James, S., Ma, Z., Arrojo, D. R., and Davison, A. J. [30]James, S., Ma, Z., Arrojo, D. R., Davison, A. J. 0.86
(2020). Rlbench: The robot learning (2020). Rlbench: ロボット学習 0.76
benchmark & learning environment. ベンチマークと学習環境です 0.75
IEEE Robotics and Automation Letters, 5(2):3019–3026. IEEE Robotics and Automation Letters, 5(2):3019–3026。 0.92
[31] Jarrett, D., Bica, I., and van der Schaar, M. (2020). [31] Jarrett, D., Bica, I., van der Schaar, M. (2020)。 0.77
Strictly batch imitation learning by 厳密なバッチ模倣学習 0.65
energy-based distribution matching. エネルギーベースの分布マッチング。 0.69
Advances in Neural Information Processing Systems, 33. 神経情報処理システムの進歩33。 0.59
[32] Jarrett, D. and van der Schaar, M. (2020). [32] jarrett, d. and van der schaar, m. (2020) 0.72
Inverse active sensing: Modeling and understanding timely decision-making. 逆アクティブセンシング: タイムリーな意思決定のモデリングと理解。 0.75
In International Conference on Machine Learning, pages 4713–4723. 機械学習に関する国際会議、4713-4723頁。 0.73
PMLR. [33] Johnson, A. E., Pollard, T. J., Shen, L., Li-Wei, H. L., Feng, M., Ghassemi, M., Moody, B., Szolovits, P., Celi, L. A., and Mark, R. G. (2016). PMLR。 Johnson, A. E., Pollard, T. J., Shen, L., Li-Wei, H. L., Feng, M., Ghassemi, M., Moody, B., Szolovits, P., Celi, L. A., Mark, R. G. (2016). 0.85
Mimic-iii, a freely accessible critical care database. mimic-iii - 無料でアクセス可能なクリティカル・ケア・データベース。 0.47
Scientific data, 3(1):1–9. 科学データ 3(1):1-9。 0.82
[34] Kingma, D. P. and Welling, M. (2013). [34] Kingma, D. P. and Welling, M. (2013). 0.99
Auto-encoding variational bayes. 自動エンコーディング変分ベイズ。 0.67
arXiv preprint arXiv プレプリント 0.83
arXiv:1312.6114. arXiv:1312.6114。 0.48
[35] Klein, E., Geist, M., and Pietquin, O. [35] Klein, E., Geist, M., Pietquin, O. 0.77
(2011). Batch, off-policy and model-free apprenticeship (2011). バッチ、オフ政治、モデルフリーの見習い 0.66
learning. In European Workshop on Reinforcement Learning, pages 285–296. 学ぶこと。 ヨーロッパの強化学習に関するワークショップでは、285-296頁。 0.65
Springer. [36] Klerings, I., Weinhandl, A. S., and Thaler, K. J. Springer [36] Klerings, I., Weinhandl, A.S., Thaler, K.J. 0.68
(2015). Information overload in healthcare: too much of a good thing? (2015). 医療における情報の過剰: あまりにも良いことか? 0.80
Zeitschrift für Evidenz, Fortbildung und Qualität im Gesundheitswesen, 109(4-5):285–290. Zeitschrift für Evidenz, Fortbildung und Qualität im Gesundheitswesen, 109(4-5):285-290。 0.77
[37] Kostrikov, I., Nachum, O., and Tompson, J. [37] kostrikov, i., nachum, o., and tompson, j. 0.74
(2019). Imitation learning via off-policy distribution (2019). オフポリシー分布による模倣学習 0.79
matching. In International Conference on Learning Representations. 一致する。 学習表現に関する国際会議に参加。 0.73
[38] Krishnan, R., Shalit, U., and Sontag, D. (2017). [38]Krishnan, R., Shalit, U., and Sontag, D. (2017)。 0.82
Structured inference networks for nonlinear state space models. 非線形状態空間モデルのための構造推論ネットワーク 0.85
In Proceedings of the AAAI Conference on Artificial Intelligence, volume 31. The Proceedings of the AAAI Conference on Artificial Intelligence, Volume 31 (英語) 0.88
[39] Levine, S., Kumar, A., Tucker, G., and Fu, J. [39] Levine, S., Kumar, A., Tucker, G., Fu, J. 0.79
(2020). Offline reinforcement learning: Tutorial, (2020). オフライン強化学習:チュートリアル、チュートリアル 0.78
review, and perspectives on open problems. オープンな問題に対する見方を見直します 0.63
arXiv preprint arXiv:2005.01643. arXiv preprint arXiv:2005.01643 0.72
[40] Maaten, L. v. d. and Hinton, G. (2008). [40]Maaten, L. v. d. and Hinton, G. (2008)。 0.91
Visualizing data using t-sne. t-sneによるデータの可視化 0.51
Journal of machine Journal of Machine(英語) 0.53
learning research, 9(Nov):2579–2605. 9(Nov):2579–2605。 0.54
[41] Memmesheimer, R., Mykhalchyshyna, I., Seib, V., and Paulus, D. (2019). [41] memmesheimer, r., mykhalchyshyna, i., seib, v., and paulus, d. (2019) 0.78
Simitate: A hybrid Simitate: ハイブリッド 0.59
imitation learning benchmark. 模倣学習ベンチマーク。 0.62
arXiv preprint arXiv:1905.06002. arXiv preprint arXiv:1905.06002 0.72
[42] Mnih, V., Kavukcuoglu, K., Silver, D., Graves, A., Antonoglou, I., Wierstra, D., and Riedmiller, [42] Mnih, V., Kavukcuoglu, K., Silver, D., Graves, A., Antonoglou, I., Wierstra, D., Riedmiller 0.78
M. (2013). Playing atari with deep reinforcement learning. 2013年)。 深い強化学習でアタリをプレイする。 0.54
arXiv preprint arXiv:1312.5602. arXiv preprint arXiv:1312.5602 0.71
[43] Oberst, M. and Sontag, D. (2019). 43] Oberst, M. and Sontag, D. (2019)。 0.80
Counterfactual off-policy evaluation with gumbel-max gumbel-maxによる反事実オフポリシー評価 0.54
structural causal models. International Conference on Machine Learning. 構造的因果モデル。 機械学習に関する国際会議。 0.81
[44] Oord, A. v. d., Dieleman, S., Zen, H., Simonyan, K., Vinyals, O., Graves, A., Kalchbrenner, N., Senior, A., and Kavukcuoglu, K. (2016). [44]Oord, A. v. d., Dieleman, S., Zen, H., Simonyan, K., Vinyals, O., Graves, A., Kalchbrenner, N., Senior, A., Kavukcuoglu, K. (2016)。 0.86
Wavenet: A generative model for raw audio. Wavenet: 生オーディオのための生成モデル。 0.81
arXiv preprint arXiv:1609.03499. arXiv preprint arXiv:1609.03499 0.70
11 11 0.85
英語(論文から抽出)日本語訳スコア
[45] O’Bryant, S. E., Waring, S. C., Cullum, C. M., Hall, J., Lacritz, L., Massman, P. J., Lupo, P. J., Reisch, J. S., and Doody, R. (2008). [45]O’Bryant, S.E., Waring, S.C., Cullum, C.M., Hall, J., Lacritz, L., Massman, P.J., Lupo, P.J., Reisch, J.S., Doody, R. (2008)。 0.90
Staging dementia using clinical dementia rating scale sum of boxes scores: a texas alzheimer’s research consortium study. 臨床認知症評価尺度を用いたステージング認知症 ボックススコアの合計:テキサスアルツハイマーの研究コンソーシアムによる研究。 0.66
Archives of neurology, 65(8):1091–1095. The Archives of Neurology, 65(8):1091–1095。 0.79
[46] Paszke, A., Gross, S., Massa, F., Lerer, A., Bradbury, J., Chanan, G., Killeen, T., Lin, Z., Gimelshein, N., Antiga, L., et al (2019). [46]Paszke, A., Gross, S., Massa, F., Lerer, A., Bradbury, J., Chanan, G., Killeen, T., Lin, Z., Gimelshein, N., Antiga, L., et al (2019)。 0.84
Pytorch: An imperative style, high-performance deep learning library. Pytorch: 命令型で高性能なディープラーニングライブラリです。 0.77
In Advances in neural information processing systems, pages 8026–8037. 神経情報処理システムの進歩』8026-8037頁。 0.68
[47] Petousis, P., Winter, A., Speier, W., Aberle, D. R., Hsu, W., and Bui, A. [47]Petousis, P., Winter, A., Speier, W., Aberle, D. R., Hsu, W., Bui, A. 0.82
A. (2019). A。 (2019). 0.79
Using sequential decision making to improve lung cancer screening performance. 肺がんスクリーニング性能を向上させるためのシーケンシャルな意思決定法。 0.65
IEEE Access, 7:119403– 119419. IEEE Access, 7:1 19403–119419。 0.68
[48] Piot, B., Geist, M., and Pietquin, O. [48]piot, b., geist, m., and pietquin, o. 0.70
(2014). Boosted and reward-regularized classification for apprenticeship learning. (2014). 徒弟学習のための強化・報酬正規化分類 0.71
In Proceedings of the 2014 international conference on Autonomous agents and multi-agent systems, pages 1249–1256. 2014年の国際エージェント・マルチエージェント・システムに関する会議(Proceedings of the 2014)において、1249-1256頁。
訳抜け防止モード: 2014年度自律エージェント・マルチエージェントシステム国際会議の開催にあたって 1249-1256頁。
0.76
International Foundation for Autonomous Agents and Multiagent Systems. International Foundation for Autonomous Agents and Multiagent Systems(英語) 0.86
[49] Qaseem, A., Fihn, S. D., Dallas, P., Williams, S., Owens, D. K., and Shekelle, P. (2012). [49]Kaseem, A., Fihn, S. D., Dallas, P., Williams, S., Owens, D. K., and Shekelle, P. (2012)。 0.89
Management of stable ischemic heart disease: Summary of a clinical practice guideline from the american college of physicians/american college of cardiology foundation/american heart association/american association for thoracic surgery/preventive cardiovascular nurses association/society of thoracic surgeons. 安定性虚血性心疾患の管理 : 胸部外科・予防的心臓血管看護士協会・胸部外科医会・アメリカ心臓科大学・アメリカ心臓学会の臨床実践ガイドラインの概要 0.68
Annals of Internal Medicine, 157(10):735–743. 内科医:157(10):735-743。 0.74
[50] Toyer, S., Shah, R., Critch, A., and Russell, S. (2020). [50]Toyer, S., Shah, R., Critch, A., and Russell, S. (2020)。 0.82
The magical benchmark for robust robustの魔法のベンチマーク 0.75
imitation. Advances in Neural Information Processing Systems, 33. 模倣だ 神経情報処理システムの進歩33。 0.51
[51] Undre, S., Sevdalis, N., Healey, A. N., Darzi, S. A., and Vincent, C. A. [51]Undre,S.,Sevdalis,N. ,Healey,A.N.,Darzi,S .A.,Vincent,C.A。
訳抜け防止モード: [51 ]Undre, S., Sevdalis, N., Healey, A. N., Darzi、S.A.、Vincent 、C.A。
0.86
(2006). Teamwork Journal of evaluation in clinical practice, (2006). teamwork journal of evaluation in clinical practice(英語) 0.84
in the operating theatre: cohesion or confusion? オペレーティング・シアターでは 結束か混乱か? 0.61
12(2):182–189. 12(2):182–189. 0.82
[52] Williams, R. J. and Zipser, D. (1989). [52] Williams, R. J. and Zipser, D. (1989). 0.99
A learning algorithm for continually running fully 継続的に実行するための学習アルゴリズム 0.76
recurrent neural networks. リカレントニューラルネットワーク。 0.63
Neural Computation, 1(2):270–280. 神経計算、1(2):270-280。 0.63
[53] Yoon, J., Jarrett, D., and van der Schaar, M. (2019). [53]Yoon, J., Jarrett, D., van der Schaar, M. (2019)。 0.78
Time-series generative adversarial networks. 時系列生成敵ネットワーク。 0.77
In Advances in Neural Information Processing Systems, pages 5508–5518. In Advances in Neural Information Processing Systems, page 5508–5518。 0.93
[54] Zhi-Xuan, T., Mann, J., Silver, T., Tenenbaum, J., and Mansinghka, V. (2020). [54]Zhi-Xuan, T., Mann, J., Silver, T., Tenenbaum, J., and Mansinghka, V. (2020) 0.89
Online bayesian goal inference for boundedly rational planning agents. 境界有理計画エージェントのためのオンラインベイズ目標推論。 0.70
Advances in Neural Information Processing Systems, 33. 神経情報処理システムの進歩33。 0.59
[55] Ziebart, B. D., Maas, A. L., Bagnell, J. [55] Ziebart, B. D., Maas, A. L., Bagnell, J. 0.94
A., and Dey, A. K. (2008). A., and Dey, A. K. (2008)。 0.94
Maximum entropy inverse 最大エントロピー逆数 0.68
reinforcement learning. In Aaai, volume 8, pages 1433–1438. 強化学習。 第8巻1433-1438頁。 0.56
Chicago, IL, USA. シカゴ、イル、アメリカ。 0.65
Checklist 1. チェックリスト 1. 0.76
For all authors... (a) Do the main claims made in the abstract and introduction accurately reflect the paper’s 作者全員に。 (a)その抄録と序論でなされた主な主張は、その論文を正確に反映する 0.65
contributions and scope? [Yes] 貢献とスコープ? [Yes] 0.76
(b) Did you describe the limitations of your work? (b)仕事の限界について説明しましたか。 0.79
[Yes] (c) Did you discuss any potential negative societal impacts of your work? Yes] (c) 仕事の潜在的な社会的影響について話し合いましたか? 0.76
[Yes] (d) Have you read the ethics review guidelines and ensured that your paper conforms to [Yes](d) 倫理審査ガイドラインを読んで、あなたの論文が適合していることを保証するか。 0.71
them? [Yes] 2. 彼ら? [Yes] 2. 0.84
If you are including theoretical results... もし理論結果を含むなら... 0.81
(a) Did you state the full set of assumptions of all theoretical results? (a)すべての理論結果の仮定の完全なセットを述べましたか。 0.82
[N/A] (b) Did you include complete proofs of all theoretical results? [N/A] (b) すべての理論結果の完全な証明は含まれましたか? 0.74
[N/A] 3. If you ran experiments (e g for benchmarks)... [N/A] 3. もし実験(例えばベンチマーク)を行ったら... 0.81
(a) Did you include the code, data, and instructions needed to reproduce the main experi- (a)メインの体験を再現するために必要なコード、データ、命令は含まれましたか? 0.64
mental results (either in the supplemental material or as a URL)? 精神的な結果(補足材料やurlとして)? 0.61
[Yes] (b) Did you specify all the training details (e g , data splits, hyperparameters, how they [Yes] (b) トレーニングの詳細(例:データ分割、ハイパーパラメータ、その方法)をすべて指定しましたか? 0.81
were chosen)? [Yes] 選ばれた)? [Yes] 0.85
12 12 0.85
英語(論文から抽出)日本語訳スコア
(c) Did you report error bars (e g , with respect to the random seed after running experi- (c) エラーバー(例えば、試験実行後のランダムシードについて)を報告しましたか? 0.61
ments multiple times)? [Yes] 複数回)? [Yes] 0.72
(d) Did you include the total amount of compute and the type of resources used (e g , type (d)計算総量と使用するリソースの種類(例えば、型)は含まれましたか? 0.69
of GPUs, internal cluster, or cloud provider)? GPU、内部クラスタ、クラウドプロバイダについて)? 0.72
[Yes] 4. If you are using existing assets (e g , code, data, models) or curating/releasing new assets... [Yes] 4. 既存の資産(コード、データ、モデルなど)を使用する場合や、新しい資産をキュレート/リースする場合...。
訳抜け防止モード: [Yes] 4. 既存の資産(コードなど)を使用している場合 データ、モデル、または新しい資産のキュレーションとリリース...
0.81
(a) If your work uses existing assets, did you cite the creators? (a)もしあなたの作品が既存の資産を使っているなら、作者を引用しましたか? 0.56
[Yes] (b) Did you mention the license of the assets? [Yes] (b) 資産のライセンスについて言及しましたか? 0.88
[No] (c) Did you include any new assets either in the supplemental material or as a URL? [No] (c) 補足材料またはURLとして、新しい資産は含まれましたか? 0.78
[Yes] (d) Did you discuss whether and how consent was obtained from people whose data you’re [Yes](d) 自分がデータを持っている人々から、同意が得られたかどうか、どのように得られたか、議論しましたか? 0.55
using/curating? [Yes] 使用/追跡? [Yes] 0.62
(e) Did you discuss whether the data you are using/curating contains personally identifiable (e)自分が使っているデータが個人識別可能かどうかを議論しましたか。 0.55
information or offensive content? 情報か攻撃的コンテンツか? 0.70
[Yes] 5. If you used crowdsourcing or conducted research with human subjects... [Yes] 5. クラウドソーシングを使ったり、人間の被験者による研究を行ったりすれば...。 0.69
(a) Did you include the full text of instructions given to participants and screenshots, if (a) 参加者とスクリーンショットに与えられた指示の全文は含まれていたか。 0.72
applicable? [N/A] 適用可能? [N/A] 0.77
(b) Did you describe any potential participant risks, with links to Institutional Review (b)Institutional Reviewにリンクして、潜在的な参加者リスクについて説明しましたか? 0.58
Board (IRB) approvals, if applicable? 委員会(IRB)の承認は適用可能か? 0.73
[N/A] (c) Did you include the estimated hourly wage paid to participants and the total amount [N/A] (c)参加者に支払われた時給と合計額を含まないか。
訳抜け防止モード: [N/A] (c)参加者に支払われた時間給を含ませたか 合計すると
0.77
spent on participant compensation? 報酬に費やしたのか? 0.61
[N/A] 13 [N/A] 13 0.82
英語(論文から抽出)日本語訳スコア
Python Repo: https://github.com/X anderJC/medkit-learn Python Repo: https://github.com/X anderJC/medkit-learn 0.48
A Domains and Real Data Information ドメインと実際のデータ情報 0.77
A.1 Hospital Wards. The Ward domain is based on the care of 6,321 patients at the Ronald Reagan UCLA Medical Center in California who were treated on the general medicine floor between 2013-2016 [4]. A.1病棟。 ウォードドメインは、2013年から2016年の間、一般医療現場で治療を受けたロナルド・レーガンUCLA医療センターで6,321人の患者のケアに基づいている。 0.64
These patients were treated for a variety of conditions including pneumonia, sepsis, and fevers were in general stable and deterioration that required ICU care was rare. これらの患者は肺炎,敗血症,発熱など様々な疾患の治療が一般的に安定しており,icuケアを必要とする症状は稀であった。 0.74
Measurements were taken roughly every 4 hours, with average stays lasting 9 days, and include common vital signs such as pulse and blood pressure alongside lab tests and results and include 8 static (although categorical features are one-hot encoded, extending the space) and 35 temporal features for which we model the dynamics. 測定はおよそ4時間毎に行われ、平均滞在時間は9日間で、パルスや血圧などの一般的なバイタルサインや実験結果、静的な8つの特徴(分類的特徴は1ホットエンコードされ、空間を拡大する)、ダイナミックをモデル化する35の時間的特徴を含む。 0.81
The action space is taken as a choice of one to three binary actions (encoded for a maximum size of eight) marking the treatment of various oxygen therapy devices. アクション空間は、様々な酸素療法装置の処置を示す1つか3つのバイナリアクション(最大サイズ8でエンコードされる)の選択として扱われる。 0.79
A.2 Intensive Care Unit. A.2 集中治療室。 0.50
The ICU domain simulates the treatment of 23,106 of patients in the intensive care unit from Amsterdam UMC [19]. ICUドメインはアムステルダムUMC[19]の集中治療室で23,106人の患者の治療をシミュレートする。 0.78
These patients are in a more critical state than those on the general wards while suffering similarly from a variety of conditions and consequently are monitored more frequently, with the database containing around 1 billion clinical observations at varying timesteps down to minute by minute recordings. これらの患者は一般病棟の患者よりも危機的状態にあり、同様に様々な状況で苦しんでおり、その結果、より頻繁に監視され、データベースには、毎分毎の記録によって、様々な時間ステップで約10億回の臨床観察が含まれている。
訳抜け防止モード: これらの患者は病棟の患者より重篤な状態にあり、様々な状況で苦しんでいる。 その結果 より頻繁に監視され データベースには、分単位の記録によって、さまざまな時間ステップで約10億回の臨床観察が含まれている。
0.70
We aggregate data into one hour timesteps and model the treatment of mechanical ventilation alongside the prescription of antibiotics and oxygentherapy. データを1時間の経過時間に集約し,抗菌薬や酸素療法の処方とともに機械的換気の治療をモデル化した。 0.64
We include 36 static features including height, initial weight, and commorbidities with 24 series features focusing on vital signs including heart rate, blood pressure, and various chemical blood concentration levels. 我々は,心拍数,血圧,各種化学血中濃度などの生命徴候に着目した24シリーズの特徴を有する,身長,初期体重,同調度を含む36の静的特徴を含む。 0.79
B Further Environment Model Details b.環境モデルの詳細 0.85
B.1 The Customised State Space Model B.1 カスタマイズされた状態空間モデル 0.68
The CSS is a variety of a deep non-Markovian hidden state-space model. CSSは、深い非マルコフ隠れ状態空間モデルの一種である。 0.79
The non-Markovianity comes from the property in the model that transitions are parameterised given discrete states simply as follows: 非マルコビアン性は、遷移が単に次のように離散状態に対してパラメータ化されるモデルの性質に由来する。 0.66
p(zt|(cid:126)xt−1, (cid:126)yt−1, (cid:126)zt−1) = p(zt|(cid:126)αt, (cid:126)zt−1) p(zt|(cid:126)xt−1, (cid:126)yt−1, (cid:126)zt−1) = p(zt|(cid:126)αt, (cid:126)zt−1) 0.72
qφ((cid:126)zT|(cid:126)xT , (cid:126)yT ) = qφ(z1|(cid:126)xT , (cid:126)yT ) qφ((cid:126)zT|(cid:126)xT , (cid:126)yT ) = qφ(z1|(cid:126)xT , (cid:126)yT ) 0.79
qφ(zt|zt−1, (cid:126)xt:T , (cid:126)yt:T ). qφ(zt|zt−1, (cid:126)xt:T , (cid:126)yt:T )。 0.77
(8) Thus the posterior depends on the previous hidden state and all future observations and actions. (8) したがって後部は以前の隠れ状態と将来の観測と行動に依存している。 0.80
This can be practically achieved by using a backward LSTM [27] to summarise the future into its hidden state before passing that and the previous state into a new network to obtain the approximate posterior. これは、後向きLSTM[27]を使用して、その先と前の状態を新しいネットワークに渡す前に、その未来をその隠れ状態に要約し、近似後部を求めることで実現することができる。 0.73
t=2 14 = αt−1 t(cid:48) Pyt(cid:48) (zt(cid:48) , zt), t=2 14 = αt−1 t(cid:48) Pyt(cid:48) (zt(cid:48) , zt) 0.78
(7) on the previous timesteps such that(cid:80)t−1 (7) cid:80)t−1 のような以前の時間ステップについて 0.69
with Pyt a baseline transition matrix given intervention yt is made and αt−1 t(cid:48) Pytでは、介入ytが与えられたベースライン遷移行列が作成され、αt−1 t(cid:48) 0.56
some attention weight t(cid:48) = 1. 注意重量t(cid:48) = 1。 0.69
This departs from the traditional IOHMM [57] by the inclusion of the attention weights that induce time-dependency on points further in the past than the previous time point and can be learnt during training. これは従来のIOHMM[57]から逸脱しており、過去の時点よりも長い時間依存を誘発し、トレーニング中に学習できる注意重みが組み込まれている。 0.62
As described in the main text, the deep aspect is manifested in the emission probability distribution whose parameters are predicted from the output of a neural network that takes the static features and current state. メインテキストで説明されているように、深い側面は、静的特徴と現在の状態を取るニューラルネットワークの出力からパラメータが予測される放出確率分布に現れる。 0.71
t(cid:48)=1 αt−1 t(cid:48)=1 αt−1 0.63
Learning and inference. Exact inference over the hidden states in this model is intractable and so we use an inference network to parameterise an approximate posterior over the latent hidden state, in particular assuming a factorisation that mirrors the true structure of the posterior as follows: 学習と推論。 このモデルにおける隠蔽状態に関する厳密な推論は難解であり、推論ネットワークを用いて潜在隠蔽状態上の近似的な後方をパラメータ化し、特に次のように後部の真の構造を反映する分解を仮定する。 0.73
t−1(cid:88) t−1(cid:88) 0.65
t(cid:48)=1 t(cid:48)=1 0.78
T(cid:89) t(cid:89) 0.79
英語(論文から抽出)日本語訳スコア
Our inference network leads to a factorised Evidence Lower BOund (ELBO) given by: 我々の推論ネットワークは、下界(elbo)が与える因子化された証拠を導出する。 0.56
(cid:2) log pθ((cid:126)xT , (cid:126)zT|(cid:126)yT−1) − log qφ((cid:126)zT|(cid:126)xT , (cid:126)yT )(cid:3), (cid:2) log pθ((cid:126)xT , (cid:126)zT|(cid:126)yT−1) − log qφ((cid:126)zT|(cid:126)xT , (cid:126)yT )(cid:3) 0.79
(9) log pθ((cid:126)xT|(cid:126)yT−1) ≥ Eqφ (9) log pθ((cid:126)xT|(cid:126)yT−1) ≥ Eqφ 0.79
leading to an optimisation task over θ and φ. θ および φ 上の最適化タスクにつながる。 0.70
This is readily done using stochastic variational inference whereby we take a Monte Carlo estimate of the ELBO by sampling from the posterior and taking gradients [38]. これは確率的変分推論を用いて容易に行われ、後ろからサンプリングして[38]をとることでエルボのモンテカルロ推定を行う。 0.58
B.2 The Sequential VAE Model b.2 シーケンシャルvaeモデル 0.84
The SVAE is again a variety of a deep non-Markovian hidden state-space model, although now the states are no longer discrete but rather live in some latent space of Rd. SVAEは、再び深い非マルコフ的隠れ状態空間モデルの一種であるが、現在では状態はもはや離散ではなく、Rdの潜在空間に生きている。 0.75
This again means that an inference network is required for doing approximate inference and similarly leads to an ELBO optimisation scheme. これはまた、近似推論を行うために推論ネットワークが必要であり、同様にELBO最適化スキームにつながることを意味する。 0.64
C Further Experimental Details c さらなる実験的詳細 0.86
C.1 Computation All experiments were performed on a 2016 MacBook Pro, using a 2.9 GHz Dual-Core Intel Core i5 with 8GB of LPDDR3 RAM and no GPU acceleration. C.1計算 すべての実験は2016年のmacbook proで行われ、2.9ghzのデュアルコアintel core i5と8gbのlpddr3 ram、gpuアクセラレーションが無かった。 0.67
C.2 Predictive Score The predictive score measures how well the synthetic data can be used as a direct substitute for real data when it comes to a prediction task. C.2 予測スコア 予測スコアは、予測タスクにおいて、実際のデータの直接的な代用として、合成データがどの程度うまく使用できるかを測定する。 0.69
For our experiments we generate 500 sample trajectories of maximum length 30 to be used as the synthetic data. 実験では, 合成データとして使用する最大長さ30の500の試料軌道を生成する。 0.87
A network consisting of an LSTM layer followed by two fully connected layers is then trained on this data for 50 epochs. LSTM層と2つの完全に接続された層で構成されるネットワークは、50時間毎にこのデータに基づいてトレーニングされる。 0.68
This is then applied to a real data set and the AUROC is reported. これは実際のデータセットに適用され、AUROCが報告される。 0.69
C.3 Discriminative Score The discriminative score measures how well the synthetic data ‘hides’ amongst real data. C.3 識別スコア 判別スコアは、実際のデータの中で合成データがいかにうまく機能するかを測定する。 0.59
For our experiments a training dataset is generated using 100 real trajectories and 100 synthetic trajectories along with their associated real/synthetic label. 実験では,100個の実軌道と100個の合成軌道と関連する実/合成ラベルを用いて,トレーニングデータセットを生成する。 0.71
A single layer LSTM is then trained on this dataset to predict the label, before being applied to a test set of 100 real trajectories and 100 synthetic trajectories. 次に、このデータセット上で単一の層LSTMをトレーニングしてラベルを予測し、100個の実軌道と100個の合成軌道の試験セットに適用する。 0.76
We report the absolute value of the test accuracy minus 0.5. テスト精度の絶対値は0.5。 0.53
C.4 Imitation Learning Benchmarks C.4 模倣学習ベンチマーク 0.63
All methods used are based on neural network and so in the experiments we maintain the same architecture of 2 hidden layers of 64 units each connected by exponential linear unit (ELU) activation functions. すべての手法はニューラルネットワークに基づいており、実験では、指数線形ユニット(ELU)アクティベーション関数によって接続された64ユニットの2つの隠れレイヤの同じアーキテクチャを維持している。
訳抜け防止モード: すべての方法はニューラルネットワークに基づいています そこで実験では,64ユニットの隠れた2層を指数線形単位(elu)アクティベーション関数で接続した同じアーキテクチャを維持した。
0.83
Publicly available code was used in the implementations of a number of the benchmarks, specifically: 公開されているコードは、いくつかのベンチマークの実装で使用された。 0.53
• VDICE [37]: •VDICE[37] 0.57
https://github.com/g oogle-research/googl e-research/tree/mast er/ value_dice https://github.com/g oogle-research/googl e-research/tree/mast er/ value_dice 0.25
• EDM [31]: https://github.com/w grathwohl/JEM •EDM[31] https://github.com/w grathwohl/JEM 0.50
Note that VDICE was originally designed for continuous actions with a Normal distribution output which we adapt for the experiments by replacing with a Gumbel-softmax. VDICEはもともと正規分布出力を持つ連続的な動作のために設計されており、Gumbel-softmax に置き換えることで実験に適応する。 0.72
15 15 0.85
英語(論文から抽出)日本語訳スコア
References [4] Alaa, A. M., Yoon, J., Hu, S., and Van der Schaar, M. (2017). 参照: Alaa, A. M., Yoon, J., Hu, S., Van der Schaar, M. (2017)。
訳抜け防止モード: 参照 [4 ] Alaa, A. M., Yoon, J. Hu, S., and Van der Schaar, M. (2017)。
0.87
Personalized risk scoring for critical care prognosis using mixtures of gaussian processes. ガウス過程の混合を用いた重症度予後の個人化リスクスコア 0.59
IEEE Transactions on Biomedical Engineering, 65(1):207–218. IEEE Transactions on Biomedical Engineering, 65(1):207–218。 0.91
[57] Bengio, Y. and Frasconi, P. (1995). 57] Bengio, Y. and Frasconi, P. (1995)。 0.83
An input output hmm architecture. 入力出力hmmアーキテクチャ。 0.56
In Advances in neural information processing systems, pages 427–434. 神経の進歩において 情報処理システム 427-434頁。 0.74
[19] Elbers, P. W. G. (2019). [19]Elbers, P. W. G. (2019)。 0.87
AmsterdamUMCdb v1.0.2 ICU database. AmsterdamumCdb v1.0.2 ICUデータベース 0.64
[27] Hochreiter, S. and Schmidhuber, J. [27]Hochreiter, S. and Schmidhuber, J. 0.89
(1997). Long short-term memory. (1997). 短期記憶。 0.70
Neural computation, 9(8):1735–1780. 神経計算 9(8):1735–1780. 0.63
[38] Krishnan, R., Shalit, U., and Sontag, D. (2017). [38]Krishnan, R., Shalit, U., and Sontag, D. (2017)。 0.82
Structured inference networks for nonlinear state space models. 非線形状態空間モデルのための構造推論ネットワーク 0.85
In Proceedings of the AAAI Conference on Artificial Intelligence, volume 31. The Proceedings of the AAAI Conference on Artificial Intelligence, Volume 31 (英語) 0.88
16 16 0.85
                                 ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。