論文の概要: Nonparametric Additive Value Functions: Interpretable Reinforcement
Learning with an Application to Surgical Recovery
- arxiv url: http://arxiv.org/abs/2308.13135v1
- Date: Fri, 25 Aug 2023 02:05:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 15:20:26.229980
- Title: Nonparametric Additive Value Functions: Interpretable Reinforcement
Learning with an Application to Surgical Recovery
- Title(参考訳): 非パラメトリック付加価値関数:外科的回復のための解釈可能な強化学習
- Authors: Patrick Emedom-Nnamdi, Timothy R. Smith, Jukka-Pekka Onnela, and
Junwei Lu
- Abstract要約: 強化学習における解釈可能な値関数を推定するための非パラメトリック加算モデルを提案する。
提案手法をシミュレーション研究により検証し, 脊椎疾患への応用として, 臨床知識に根ざしたリカバリレコメンデーションを明らかにする。
- 参考スコア(独自算出の注目度): 8.890206493793878
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a nonparametric additive model for estimating interpretable value
functions in reinforcement learning. Learning effective adaptive clinical
interventions that rely on digital phenotyping features is a major for concern
medical practitioners. With respect to spine surgery, different post-operative
recovery recommendations concerning patient mobilization can lead to
significant variation in patient recovery. While reinforcement learning has
achieved widespread success in domains such as games, recent methods heavily
rely on black-box methods, such neural networks. Unfortunately, these methods
hinder the ability of examining the contribution each feature makes in
producing the final suggested decision. While such interpretations are easily
provided in classical algorithms such as Least Squares Policy Iteration, basic
linearity assumptions prevent learning higher-order flexible interactions
between features. In this paper, we present a novel method that offers a
flexible technique for estimating action-value functions without making
explicit parametric assumptions regarding their additive functional form. This
nonparametric estimation strategy relies on incorporating local kernel
regression and basis expansion to obtain a sparse, additive representation of
the action-value function. Under this approach, we are able to locally
approximate the action-value function and retrieve the nonlinear, independent
contribution of select features as well as joint feature pairs. We validate the
proposed approach with a simulation study, and, in an application to spine
disease, uncover recovery recommendations that are inline with related clinical
knowledge.
- Abstract(参考訳): 強化学習における解釈可能値関数を推定するための非パラメトリック加法モデルを提案する。
デジタル表現型機能に依存する効果的な適応型臨床介入の学習は、医療従事者にとって大きな意味を持つ。
脊椎手術では, 術後のリハビリテーションに関する推奨事項が異なっており, 術後のリハビリテーションの変動が顕著である。
強化学習はゲームなどの領域で広く成功したが、最近の手法はニューラルネットワークのようなブラックボックス方式に大きく依存している。
残念なことに、これらの手法は、各機能が最終的な決定を下す際に与える貢献を調べる能力を妨げます。
このような解釈は、Last Squares Policy Iterationのような古典的なアルゴリズムで容易に提供されるが、基本的な線形性仮定は特徴間の高次フレキシブルな相互作用の学習を妨げる。
本稿では,その付加的機能形式に関して明示的なパラメトリックな仮定をすることなく,アクション値関数を柔軟に推定する手法を提案する。
この非パラメトリックな推定戦略は、局所的なカーネル回帰と基底展開を組み込んで、アクション値関数のスパースで加法的な表現を得る。
提案手法では,動作値関数を局所的に近似し,選択特徴と結合特徴対の非線形かつ独立な寄与を検索できる。
提案手法をシミュレーション研究により検証し,脊椎疾患への応用として,臨床知識に根ざした回復勧告を明らかにする。
関連論文リスト
- Offline Reinforcement Learning with Differentiable Function
Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。
微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。
最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文 参考訳(メタデータ) (2022-10-03T07:59:42Z) - Benchmarking Heterogeneous Treatment Effect Models through the Lens of
Interpretability [82.29775890542967]
治療のパーソナライズされた効果を見積もるのは複雑だが、普及している問題である。
ヘテロジニアス処理効果推定に関する機械学習文献の最近の進歩は、洗練されたが不透明なツールの多くを生み出した。
我々は、ポストホックな特徴重要度法を用いて、モデルの予測に影響を及ぼす特徴を特定する。
論文 参考訳(メタデータ) (2022-06-16T17:59:05Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Neuroevolutionary Feature Representations for Causal Inference [0.0]
本稿では,条件付き平均処理効果(CATE)の推定を支援する特徴表現の学習手法を提案する。
本手法は,特徴量から得られる結果を予測するために訓練されたニューラルネットワークの中間層に焦点をあてる。
論文 参考訳(メタデータ) (2022-05-21T09:13:04Z) - A Novel Tropical Geometry-based Interpretable Machine Learning Method:
Application in Prognosis of Advanced Heart Failure [4.159216572695661]
臨床診断支援システムなどの多くの実用化には,モデルの解釈可能性が不可欠である。
人間の理解可能なルールにおける入力変数と応答の関係をモデル化する,新しい解釈可能な機械学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-09T17:53:12Z) - Unifying Gradient Estimators for Meta-Reinforcement Learning via
Off-Policy Evaluation [53.83642844626703]
オフ・ポリシー評価に基づいて,高次値関数の高次微分を推定するための統一フレームワークを提供する。
本フレームワークは, ヘッセン推定の偏りと分散トレードオフを解明する特別事例として, 多くの先行的アプローチを解釈する。
論文 参考訳(メタデータ) (2021-06-24T15:58:01Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Autonomous Learning of Features for Control: Experiments with Embodied
and Situated Agents [0.0]
本稿では,ポリシネットワークのトレーニング中に特徴抽出モジュールのトレーニングを継続する手法を提案する。
シーケンス・ツー・シークエンス・ラーニング(Sequence-to-Sequence Learning)は,従来の研究方法よりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2020-09-15T14:34:42Z) - Interpretable Off-Policy Evaluation in Reinforcement Learning by
Highlighting Influential Transitions [48.91284724066349]
強化学習におけるオフ政治評価は、医療や教育などの領域における将来の成果を改善するために観察データを使用する機会を提供する。
信頼区間のような従来の尺度は、ノイズ、限られたデータ、不確実性のために不十分である可能性がある。
我々は,人間専門家が政策評価評価評価の妥当性を分析できるように,ハイブリッドAIシステムとして機能する手法を開発した。
論文 参考訳(メタデータ) (2020-02-10T00:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。