論文の概要: Time After Time: Deep-Q Effect Estimation for Interventions on When and What to do
- arxiv url: http://arxiv.org/abs/2503.15890v1
- Date: Thu, 20 Mar 2025 06:27:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:35:32.709174
- Title: Time After Time: Deep-Q Effect Estimation for Interventions on When and What to do
- Title(参考訳): 時間経過時間:いつ、何をすべきかの介入に対する深部Q効果推定
- Authors: Yoav Wald, Mark Goldstein, Yonathan Efroni, Wouter A. C. van Amsterdam, Rajesh Ranganath,
- Abstract要約: 我々は、Earl Most Disagreement Q-Evaluation(EDQ)と呼ばれる、いつ、何をすべきかを推定する新しいディープQアルゴリズムを提案する。
生存時間と腫瘍成長タスクに関する実験を通じて,本手法の有効性を検証した。
- 参考スコア(独自算出の注目度): 37.272310726714366
- License:
- Abstract: Problems in fields such as healthcare, robotics, and finance requires reasoning about the value both of what decision or action to take and when to take it. The prevailing hope is that artificial intelligence will support such decisions by estimating the causal effect of policies such as how to treat patients or how to allocate resources over time. However, existing methods for estimating the effect of a policy struggle with \emph{irregular time}. They either discretize time, or disregard the effect of timing policies. We present a new deep-Q algorithm that estimates the effect of both when and what to do called Earliest Disagreement Q-Evaluation (EDQ). EDQ makes use of recursion for the Q-function that is compatible with flexible sequence models, such as transformers. EDQ provides accurate estimates under standard assumptions. We validate the approach through experiments on survival time and tumor growth tasks.
- Abstract(参考訳): 医療、ロボティクス、ファイナンスといった分野の問題は、どの決定や行動をとるか、いつ取るかの両方の価値を推論する必要がある。
人工知能は、患者の治療方法やリソースの配分方法など、政策の因果効果を見積もることによって、そのような決定を支持できると期待されている。
しかし、政策闘争の効果を推定するための既存の手法は「不規則な時間」である。
彼らは時間を区別するか、タイミングポリシーの影響を無視します。
本稿では,Earliest Disagreement Q-Evaluation (EDQ) と呼ばれる,時間と方法の効果を推定する新しいディープQアルゴリズムを提案する。
EDQは変換器のような柔軟なシーケンスモデルと互換性のあるQ関数に対して再帰を利用する。
EDQは標準的な仮定の下で正確な見積もりを提供する。
生存時間と腫瘍成長タスクに関する実験を通じて,本手法の有効性を検証した。
関連論文リスト
- Time Can Invalidate Algorithmic Recourse [20.78332455864586]
因果関係のレンズを通して問題を提示することにより、時間とともにアルゴリズム的言論の頑健さを考察する。
理論上、実証的に、(堅牢な)因果ARメソッドが時間とともに失敗する可能性があることを実証します。
本稿では,推定器へのアクセスを前提として,時間を考慮した時間的ARのための簡易かつ効果的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-10T15:02:38Z) - Uncertainty Quantification for Forward and Inverse Problems of PDEs via
Latent Global Evolution [110.99891169486366]
本稿では,効率的かつ高精度な不確実性定量化を深層学習に基づく代理モデルに統合する手法を提案する。
本手法は,フォワード問題と逆問題の両方に対して,堅牢かつ効率的な不確実性定量化機能を備えたディープラーニングに基づく代理モデルを提案する。
提案手法は, 長期予測を含むシナリオに適合し, 拡張された自己回帰ロールアウトに対する不確かさの伝播に優れる。
論文 参考訳(メタデータ) (2024-02-13T11:22:59Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - The Importance of Time in Causal Algorithmic Recourse [0.0]
意思決定におけるアルゴリズム・リコースの適用は、好ましくない決定を逆転させる実用的な解決策を提供する、有望な分野である。
近年の進歩は、因果関係の知識を取り入れ、推奨された行動の質を高めている。
我々は、時間次元を因果アルゴリズム手法に統合し、勧告の妥当性と信頼性を高める必要性を動機付けている。
論文 参考訳(メタデータ) (2023-06-08T10:20:08Z) - Anytime-valid off-policy inference for contextual bandits [34.721189269616175]
コンテキストバンディットアルゴリズムは、観測されたコンテキストを$X_t$からアクションにマッピングする。
データの収集に使われたロギングポリシーと異なる仮説的ポリシーの特性を推定することは、しばしば関心がある。
我々は、過去の作業で不要な条件を緩和するOPE推論のための包括的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-19T17:57:53Z) - Continuous-Time Modeling of Counterfactual Outcomes Using Neural
Controlled Differential Equations [84.42837346400151]
反現実的な結果を予測することは、パーソナライズされたヘルスケアをアンロックする可能性がある。
既存の因果推論アプローチでは、観察と治療決定の間の通常の離散時間間隔が考慮されている。
そこで本研究では,腫瘍増殖モデルに基づく制御可能なシミュレーション環境を提案する。
論文 参考訳(メタデータ) (2022-06-16T17:15:15Z) - Temporal-Difference Value Estimation via Uncertainty-Guided Soft Updates [110.92598350897192]
Q-Learningは、制御タスクを実行するポリシーを学ぶのに効果的であることが証明されている。
推定ノイズは、政策改善ステップにおける最大演算子の後、バイアスとなる。
UQL(Unbiased Soft Q-Learning)は、2つのアクション、有限状態空間からマルチアクション、無限状態マルコフ決定プロセスまで、EQLの作業を拡張する。
論文 参考訳(メタデータ) (2021-10-28T00:07:19Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Statistical Inference of the Value Function for Reinforcement Learning
in Infinite Horizon Settings [0.0]
我々は、決定ポイントの数が無限大に分散する無限の地平線設定において、ポリシーの値に対する信頼区間(CI)を構築する。
最適方針が一意でない場合でも,提案したCIが名目上のカバレッジを達成することを示す。
提案手法をモバイル健康研究のデータセットに適用し, 強化学習アルゴリズムが患者の健康状態を改善するのに役立つことを確かめた。
論文 参考訳(メタデータ) (2020-01-13T19:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。