論文の概要: A Penalized Shared-parameter Algorithm for Estimating Optimal Dynamic Treatment Regimens
- arxiv url: http://arxiv.org/abs/2107.07875v3
- Date: Wed, 04 Dec 2024 07:13:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:38:24.128255
- Title: A Penalized Shared-parameter Algorithm for Estimating Optimal Dynamic Treatment Regimens
- Title(参考訳): 最適動的処理規則推定のためのペナル化共有パラメータアルゴリズム
- Authors: Palash Ghosh, Xinru Wang, Trikay Nalamada, Shruti Agarwal, Maria Jahja, Bibhas Chakraborty,
- Abstract要約: 既存のQ-Sharedアルゴリズムは,Q-ラーニング設定において線形モデルを用いることにより,非収束性に悩まされる可能性があることを示す。
我々は、条件に反する設定に収束するだけでなく、条件が満たされた場合でも元のアルゴリズムよりも優れる、ペナル化Q-Sharedアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 5.849513679510834
- License:
- Abstract: A dynamic treatment regimen (DTR) is a set of decision rules to personalize treatments for an individual using their medical history. The Q-learning-based Q-shared algorithm has been used to develop DTRs that involve decision rules shared across multiple stages of intervention. We show that the existing Q-shared algorithm can suffer from non-convergence due to the use of linear models in the Q-learning setup, and identify the condition under which Q-shared fails. We develop a penalized Q-shared algorithm that not only converges in settings that violate the condition, but can outperform the original Q-shared algorithm even when the condition is satisfied. We give evidence for the proposed method in a real-world application and several synthetic simulations.
- Abstract(参考訳): 動的治療レギュラー(英: dynamic treatment regimen、DTR)とは、個人の治療を医療履歴を用いてパーソナライズするための一連の決定規則である。
Q-ラーニングに基づくQ-Sharedアルゴリズムは、複数の介入の段階で共有される決定ルールを含むDTRの開発に使用されている。
既存のQ-Sharedアルゴリズムは,Q-ラーニングにおける線形モデルの使用により,非収束性に悩まされることを示し,Q-Sharedが失敗する条件を特定する。
我々は、条件に反する設定に収束するだけでなく、条件を満たす場合でも元のQ共有アルゴリズムよりも優れる、ペナル化Q共有アルゴリズムを開発した。
提案手法を実世界の応用と数種類の合成シミュレーションで実証する。
関連論文リスト
- Variance-Reduced Cascade Q-learning: Algorithms and Sample Complexity [3.4376560669160394]
Variance-Reduced Cascade Q-learning (VRCQ)と呼ばれる新しいモデルなしアルゴリズムを導入し分析する。
VRCQは、既存のモデルフリー近似型アルゴリズムと比較して、$ell_infty$-normにおいて優れた保証を提供する。
論文 参考訳(メタデータ) (2024-08-13T00:34:33Z) - Two-Step Q-Learning [0.0]
そこで本研究では,重要でない2段階のQ-ラーニングアルゴリズムを提案する。
数値実験により、2段階のQ-ラーニングとそのスムーズな変形の優れた性能が示された。
論文 参考訳(メタデータ) (2024-07-02T15:39:00Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。
実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文 参考訳(メタデータ) (2023-11-05T12:03:58Z) - Sub-linear Regret in Adaptive Model Predictive Control [56.705978425244496]
本稿では,STT-MPC (Self-Tuning tube-based Model Predictive Control) について述べる。
システム力学を最初に認識したアルゴリズムと比較して,アルゴリズムの後悔を解析する。
論文 参考訳(メタデータ) (2023-10-07T15:07:10Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - A Data-Driven State Aggregation Approach for Dynamic Discrete Choice
Models [7.7347261505610865]
本稿では,状態の選択と集約のためのデータ駆動型手法を提案する。
提案した2段階のアプローチは,問題次元を減らして次元の呪いを緩和する。
2つの古典的動的離散的選択推定法におけるアルゴリズムの実証的性能を実証する。
論文 参考訳(メタデータ) (2023-04-11T01:07:24Z) - Differentially Private Deep Q-Learning for Pattern Privacy Preservation
in MEC Offloading [76.0572817182483]
攻撃者は、エッジサーバ(ES)のキュー情報とユーザの使用パターンを推測するために、オフロードの決定を盗み取ることができる。
パターンプライバシ(PP)を維持しつつ,レイテンシ,ESのエネルギー消費,タスク削減率を両立させるオフロード戦略を提案する。
そこで我々はDP-DQOアルゴリズムを開発し,PP問題にノイズを注入することでこの問題に対処する。
論文 参考訳(メタデータ) (2023-02-09T12:50:18Z) - Hamilton-Jacobi Deep Q-Learning for Deterministic Continuous-Time
Systems with Lipschitz Continuous Controls [2.922007656878633]
リプシッツ連続制御を用いた連続時間決定論的最適制御問題に対するQ-learningアルゴリズムを提案する。
HJB方程式の新たな半離散バージョンが提案され、離散時間で収集されたデータを用いて、システムの力学を離散化したり近似したりすることなく、Q-ラーニングアルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-10-27T06:11:04Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Boosting Algorithms for Estimating Optimal Individualized Treatment
Rules [4.898659895355356]
最適な個別化処理規則を推定するための非パラメトリックアルゴリズムを提案する。
提案アルゴリズムは機械学習文学において最も強力なアルゴリズムの1つであるXGBoostアルゴリズムに基づいている。
論文 参考訳(メタデータ) (2020-01-31T22:26:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。