論文の概要: An Orthogonal Learner for Individualized Outcomes in Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2509.26429v1
- Date: Tue, 30 Sep 2025 15:49:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.604424
- Title: An Orthogonal Learner for Individualized Outcomes in Markov Decision Processes
- Title(参考訳): マルコフ決定過程における個人化結果の直交学習
- Authors: Emil Javurek, Valentyn Melnychuk, Jonas Schweisthal, Konstantin Hess, Dennis Frauen, Stefan Feuerriegel,
- Abstract要約: DRQ-learnerと呼ばれる新しいメタラーナーを開発した。
DRQ-learnerは離散状態空間と連続状態空間の両方の設定に適用できます。
- 参考スコア(独自算出の注目度): 55.93922317950527
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predicting individualized potential outcomes in sequential decision-making is central for optimizing therapeutic decisions in personalized medicine (e.g., which dosing sequence to give to a cancer patient). However, predicting potential outcomes over long horizons is notoriously difficult. Existing methods that break the curse of the horizon typically lack strong theoretical guarantees such as orthogonality and quasi-oracle efficiency. In this paper, we revisit the problem of predicting individualized potential outcomes in sequential decision-making (i.e., estimating Q-functions in Markov decision processes with observational data) through a causal inference lens. In particular, we develop a comprehensive theoretical foundation for meta-learners in this setting with a focus on beneficial theoretical properties. As a result, we yield a novel meta-learner called DRQ-learner and establish that it is: (1) doubly robust (i.e., valid inference under the misspecification of one of the nuisances), (2) Neyman-orthogonal (i.e., insensitive to first-order estimation errors in the nuisance functions), and (3) achieves quasi-oracle efficiency (i.e., behaves asymptotically as if the ground-truth nuisance functions were known). Our DRQ-learner is applicable to settings with both discrete and continuous state spaces. Further, our DRQ-learner is flexible and can be used together with arbitrary machine learning models (e.g., neural networks). We validate our theoretical results through numerical experiments, thereby showing that our meta-learner outperforms state-of-the-art baselines.
- Abstract(参考訳): シーケンシャルな意思決定において、個人化された潜在的成果を予測することは、パーソナライズドメディカル(例えば、がん患者に与える配列)における治療決定を最適化する中心である。
しかし、長い地平線上での潜在的な結果を予測することは、非常に難しい。
地平線の呪いを破る既存の方法は、直交性や準軌道効率のような強い理論的保証を欠いている。
本稿では、因果推論レンズを用いて、マルコフ決定過程のQ関数を観測データで推定するシーケンシャルな意思決定において、個人化された潜在的な結果を予測する問題を再考する。
特に,メタ学習者のための総合的な理論基盤を,有益な理論的性質に焦点をあてて開発している。
その結果、DRQ-learnerと呼ばれる新しいメタラーナーが得られ、(1)二重強靭性(すなわち、ニュアンスの1つの不特定性の下で有効な推論)、(2)ネイマン・オルソゴン性(すなわち、ニュアンス関数の1次推定誤差に敏感)、(3)準オーラル効率(すなわち、基底トラスニュアンス関数が知られているかのように漸近的に振る舞うこと)であることを示す。
DRQ-learnerは離散状態空間と連続状態空間の両方の設定に適用できます。
さらに、DRQ-learnerは柔軟で、任意の機械学習モデル(例えばニューラルネットワーク)と一緒に使用することができます。
数値実験により理論的結果を検証することにより,メタラーナーが最先端のベースラインより優れていることを示す。
関連論文リスト
- A Relative Ignorability Framework for Decision-Relevant Observability in Control Theory and Reinforcement Learning [0.0]
因果推論パラダイムは、欠如の無知を形式化する。
相対的無知(Relative ignorability)は、正確な意思決定の要求を洗練させるグラフィカル・因果的基準である。
論文 参考訳(メタデータ) (2025-04-10T13:15:52Z) - Inadequacy of common stochastic neural networks for reliable clinical
decision support [0.4262974002462632]
医療意思決定におけるAIの普及は、倫理的および安全性に関する懸念から、いまだに妨げられている。
しかし、一般的なディープラーニングアプローチは、データシフトによる過信傾向にある。
本研究は臨床応用における信頼性について考察する。
論文 参考訳(メタデータ) (2024-01-24T18:49:30Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Robust Fitted-Q-Evaluation and Iteration under Sequentially Exogenous
Unobserved Confounders [16.193776814471768]
連続的に外生的でない共同設立者が存在する場合、ロバストな政策評価と政策最適化について検討する。
本研究は,敗血症治療のシミュレーションと実世界の縦断医療データの両方において,複雑性境界,洞察,有効性を示す。
論文 参考訳(メタデータ) (2023-02-01T18:40:53Z) - Deep Learning Methods for Proximal Inference via Maximum Moment
Restriction [0.0]
深層ニューラルネットワークに基づくフレキシブルでスケーラブルな手法を導入し,不測の共起の存在による因果効果を推定する。
提案手法は,2つの確立された近位推定ベンチマークにおいて,技術性能の状態を達成している。
論文 参考訳(メタデータ) (2022-05-19T19:51:42Z) - On the Benefits of Large Learning Rates for Kernel Methods [110.03020563291788]
本稿では,カーネル手法のコンテキストにおいて,現象を正確に特徴付けることができることを示す。
分離可能なヒルベルト空間における2次対象の最小化を考慮し、早期停止の場合、学習速度の選択が得られた解のスペクトル分解に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2022-02-28T13:01:04Z) - Masked prediction tasks: a parameter identifiability view [49.533046139235466]
マスク付きトークンの予測に広く用いられている自己教師型学習手法に着目する。
いくつかの予測タスクは識別可能性をもたらすが、他のタスクはそうではない。
論文 参考訳(メタデータ) (2022-02-18T17:09:32Z) - General stochastic separation theorems with optimal bounds [68.8204255655161]
分離性の現象が明らかになり、機械学習で人工知能(AI)システムのエラーを修正し、AI不安定性を分析するために使用された。
エラーやエラーのクラスタは、残りのデータから分離することができる。
AIシステムを修正する能力は、それに対する攻撃の可能性も開き、高次元性は、同じ分離性によって引き起こされる脆弱性を誘発する。
論文 参考訳(メタデータ) (2020-10-11T13:12:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。