論文の概要: Mathematics of statistical sequential decision-making: concentration, risk-awareness and modelling in stochastic bandits, with applications to bariatric surgery
- arxiv url: http://arxiv.org/abs/2405.01994v1
- Date: Fri, 3 May 2024 10:50:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 13:15:51.309428
- Title: Mathematics of statistical sequential decision-making: concentration, risk-awareness and modelling in stochastic bandits, with applications to bariatric surgery
- Title(参考訳): 統計的シーケンシャル意思決定の数学 : 確率的包帯における濃度、リスク認識、モデリングとバリウム手術への応用
- Authors: Patrick Saux,
- Abstract要約: 本論文は術後患者の統計的シーケンシャル意思決定アルゴリズムの分析において生じる数学的課題について考察することを目的としている。
我々は,新しい安全で有意な濃度境界を考案し,リスク認識型コンテキストブレイジットの新しい枠組みを導入し,弱い仮定の下で新しい非パラメトリックブレイジットアルゴリズムを解析した。
術後のパーソナライズド・フォローアップ・レコメンデーションに向けた第一歩として, 手術後の長期的体重トラジェクトリを予測するために, 医師や外科医とともに, 解釈可能な機械学習モデルを開発した。
- 参考スコア(独自算出の注目度): 2.266258510757917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This thesis aims to study some of the mathematical challenges that arise in the analysis of statistical sequential decision-making algorithms for postoperative patients follow-up. Stochastic bandits (multiarmed, contextual) model the learning of a sequence of actions (policy) by an agent in an uncertain environment in order to maximise observed rewards. To learn optimal policies, bandit algorithms have to balance the exploitation of current knowledge and the exploration of uncertain actions. Such algorithms have largely been studied and deployed in industrial applications with large datasets, low-risk decisions and clear modelling assumptions, such as clickthrough rate maximisation in online advertising. By contrast, digital health recommendations call for a whole new paradigm of small samples, risk-averse agents and complex, nonparametric modelling. To this end, we developed new safe, anytime-valid concentration bounds, (Bregman, empirical Chernoff), introduced a new framework for risk-aware contextual bandits (with elicitable risk measures) and analysed a novel class of nonparametric bandit algorithms under weak assumptions (Dirichlet sampling). In addition to the theoretical guarantees, these results are supported by in-depth empirical evidence. Finally, as a first step towards personalised postoperative follow-up recommendations, we developed with medical doctors and surgeons an interpretable machine learning model to predict the long-term weight trajectories of patients after bariatric surgery.
- Abstract(参考訳): 本論文は術後患者の統計的シーケンシャル意思決定アルゴリズムの分析において生じる数学的課題について考察することを目的としている。
確率的盗賊 (Stochastic bandits) は、観察された報酬を最大化するために、不確実な環境でエージェントによる一連の行動(政治)の学習をモデル化する。
最適な政策を学ぶためには、バンディットアルゴリズムは現在の知識の活用と不確実な行動の探索のバランスをとる必要がある。
このようなアルゴリズムは、大規模なデータセット、リスクの低い決定、オンライン広告におけるクリックスルー率の最大化のような明確なモデリング仮定を含む産業アプリケーションで研究され、展開されてきた。
対照的に、デジタルヘルスレコメンデーションは、小さなサンプル、リスク回避エージェント、複雑で非パラメトリックなモデリングという全く新しいパラダイムを求めている。
この目的のために、我々は、安全で有意な新しい濃度境界(Bregman, empirical Chernoff)を開発し、リスクを意識したコンテキスト的包帯のための新しい枠組みを導入し、弱い仮定(ディリクレサンプリング)の下で、新しい非パラメトリックバンディットアルゴリズムのクラスを分析した。
理論的な保証に加えて、これらの結果は深い経験的証拠によって裏付けられている。
最後に, 術後のパーソナライズド・フォローアップ・レコメンデーションに向けた第一歩として, 医師, 外科医らとともに, 手術後の長期的体重軌跡を予測するための解釈可能な機械学習モデルを開発した。
関連論文リスト
- Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Quantifying Uncertainty in Deep Learning Classification with Noise in
Discrete Inputs for Risk-Based Decision Making [1.529943343419486]
本稿では,Deep Neural Network(DNN)モデルの予測不確実性を定量化する数学的枠組みを提案する。
予測の不確実性は、既知の有限離散分布に従う予測器の誤差から生じる。
提案フレームワークは,予測器の離散誤差が存在する場合のアプリケーションにおけるリスクベースの意思決定を支援する。
論文 参考訳(メタデータ) (2023-10-09T19:26:24Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Risk-Sensitive Reinforcement Learning with Exponential Criteria [0.0]
我々は、堅牢な強化学習ポリシーを定義し、リスクに敏感な強化学習問題を定式化し、それらを近似する。
本稿では,近似更新を用いた乗算ベルマン方程式の解法に基づく新しいオンラインアクター・クリティカルアルゴリズムを提案する。
シミュレーション実験により,提案手法の実装,性能,ロバスト性を評価した。
論文 参考訳(メタデータ) (2022-12-18T04:44:38Z) - Mitigating multiple descents: A model-agnostic framework for risk
monotonization [84.6382406922369]
クロスバリデーションに基づくリスクモノトナイズのための一般的なフレームワークを開発する。
本稿では,データ駆動方式であるゼロステップとワンステップの2つの手法を提案する。
論文 参考訳(メタデータ) (2022-05-25T17:41:40Z) - A New Approach for Interpretability and Reliability in Clinical Risk
Prediction: Acute Coronary Syndrome Scenario [0.33927193323747895]
我々は、リスクスコアと機械学習モデルの両方の最高の特徴を組み合わせた、新たなリスクアセスメント方法論を作成するつもりです。
提案手法は、標準LRと同一の試験結果を得たが、より優れた解釈性とパーソナライゼーションを提供する。
個人予測の信頼性推定は誤分類率と大きな相関を示した。
論文 参考訳(メタデータ) (2021-10-15T19:33:46Z) - A Unifying Theory of Thompson Sampling for Continuous Risk-Averse
Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。
大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。
リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文 参考訳(メタデータ) (2021-08-25T17:09:01Z) - On the Importance of Diversity in Re-Sampling for Imbalanced Data and
Rare Events in Mortality Risk Models [0.0]
外科的アウトカムリスクツール(SORT)は、英国の主要な選択的内科手術の期間を通して死亡リスクを予測するために開発されたツールの1つです。
本研究では,データセット内のクラス不均衡に対処することにより,SORT予測モデルの拡張を行う。
提案手法は,共通再サンプリング技術上での多様性に基づく選択の応用について検討する。
論文 参考訳(メタデータ) (2020-12-15T09:45:35Z) - DeepHazard: neural network for time-varying risks [0.6091702876917281]
生存予測のための新しいフレキシブルな手法,DeepHazardを提案する。
我々のアプローチは、時間内に添加物としてのみ制限される、広範囲の継続的なハザード形態に適合している。
数値的な例では,我々の手法は,C-インデックス計量を用いて評価された予測能力において,既存の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2020-07-26T21:01:49Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。