論文の概要: Optimizing Algorithms for Mobile Health Interventions with Active Querying Optimization
- arxiv url: http://arxiv.org/abs/2512.08950v1
- Date: Thu, 27 Nov 2025 14:21:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 04:16:52.562978
- Title: Optimizing Algorithms for Mobile Health Interventions with Active Querying Optimization
- Title(参考訳): アクティブクエリ最適化によるモバイルヘルス介入のための最適化アルゴリズム
- Authors: Aseel Rawashdeh,
- Abstract要約: モバイルヘルス介入における強化学習は、介入効果とユーザの負担のバランスをとる必要がある。
Act-Then-Measure (ATM)アルゴリズムは、時間差に着想を得たQラーニング手法に依存しており、スパースとノイズの多い環境で不安定になりがちである。
我々は,標準的なQ-ラーニングをカルマンフィルタスタイルのベイズ更新に置き換え,Q-値の不確実性を考慮した評価を維持できるATMのベイズ拡張を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement learning in mobile health (mHealth) interventions requires balancing intervention efficacy with user burden, particularly when state measurements (for example, user surveys or feedback) are costly yet essential. The Act-Then-Measure (ATM) heuristic addresses this challenge by decoupling control and measurement actions within the Action-Contingent Noiselessly Observable Markov Decision Process (ACNO-MDP) framework. However, the standard ATM algorithm relies on a temporal-difference-inspired Q-learning method, which is prone to instability in sparse and noisy environments. In this work, we propose a Bayesian extension to ATM that replaces standard Q-learning with a Kalman filter-style Bayesian update, maintaining uncertainty-aware estimates of Q-values and enabling more stable and sample-efficient learning. We evaluate our method in both toy environments and clinically motivated testbeds. In small, tabular environments, Bayesian ATM achieves comparable or improved scalarized returns with substantially lower variance and more stable policy behavior. In contrast, in larger and more complex mHealth settings, both the standard and Bayesian ATM variants perform poorly, suggesting a mismatch between ATM's modeling assumptions and the structural challenges of real-world mHealth domains. These findings highlight the value of uncertainty-aware methods in low-data settings while underscoring the need for new RL algorithms that explicitly model causal structure, continuous states, and delayed feedback under observation cost constraints.
- Abstract(参考訳): モバイルヘルス(mHealth)介入における強化学習は、特に状態測定(例えば、ユーザ調査やフィードバック)が高価で不可欠である場合に、ユーザーの負担と介入効果のバランスをとる必要がある。
Act-Then-Measure (ATM) ヒューリスティックは、Action-Contingent Noiselessly Observable Markov Decision Process (ACNO-MDP) フレームワーク内で制御と測定のアクションを分離することでこの問題に対処する。
しかし、標準的なATMアルゴリズムは時間差にインスパイアされたQ-ラーニング法に依存しており、これはスパースでノイズの多い環境で不安定になりがちである。
本研究では,標準的なQ-ラーニングをカルマンフィルタ方式のベイズ更新に置き換え,Q-値の不確実性を考慮した評価を維持し,より安定かつサンプル効率のよい学習を可能にするATMのベイズ拡張を提案する。
本手法は,おもちゃの環境と臨床的に動機付けられたテストベッドの両方で評価する。
小さな表の環境では、ベイジアンATMは、かなり低い分散とより安定した政策行動で、同等または改善されたスカラー化リターンを達成する。
対照的に、より大きく複雑なmHealth設定では、標準ATMとベイズATMの両変種は、ATMのモデリング仮定と現実世界のmHealthドメインの構造的課題とのミスマッチを示唆している。
これらの結果は、因果構造、連続状態、観測コスト制約下での遅延フィードバックを明示的にモデル化する新しいRLアルゴリズムの必要性を強調しつつ、低データ設定における不確実性を考慮した手法の価値を強調した。
関連論文リスト
- Enhancing Trustworthiness with Mixed Precision: Benchmarks, Opportunities, and Challenges [12.438306093697]
大規模言語モデル(LLM)は、様々なタスクで有望なパフォーマンスを示している。
LLMの自己回帰デコーディングプロセスは、既存のAIハードウェアへの効率的なデプロイに重大な課題をもたらす。
論文 参考訳(メタデータ) (2025-11-27T14:17:43Z) - Time-Aware Feature Selection: Adaptive Temporal Masking for Stable Sparse Autoencoder Training [0.47745223151611654]
本稿では,アクティベーションの程度,頻度,コントリビューションの追跡によって特徴選択を調整し,時間とともに進化する重要度を計算するための新しいトレーニング手法であるAdaptive Temporal Masking(ATM)を紹介する。
ATMは、TopKやJumpReLU SAEsのような既存の方法に比べて吸収スコアが大幅に低いが、再現性は良好である。
論文 参考訳(メタデータ) (2025-10-09T23:12:51Z) - Dynamic Uncertainty-aware Multimodal Fusion for Outdoor Health Monitoring [14.465453649354531]
MLLM(Multimodal large language model)は、将来性のある代替案である。
MLLMは入力やゆらぎノイズによる微妙な健康状態の変化を捉えることができない。
本研究では、動的・騒音環境における屋外健康モニタリングのためのマルチモーダル融合フレームワークであるマルチモーダルヘルスを提案する。
論文 参考訳(メタデータ) (2025-08-12T17:07:27Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - Distribution-Free Uncertainty Quantification in Mechanical Ventilation Treatment: A Conformal Deep Q-Learning Framework [2.5070297884580874]
本研究では,集中治療室における機械的換気を最適化するための,分布自由な共形深度Q-ラーニング手法であるConformalDQNを紹介する。
我々はMIMIC-IVデータベースからICU患者記録を用いてモデルを訓練・評価した。
論文 参考訳(メタデータ) (2024-12-17T06:55:20Z) - Robust Reinforcement Learning under Diffusion Models for Data with Jumps [40.2559197706778]
本稿では,MSBVE(Mean-Square Bipower Variation Error)アルゴリズムを提案する。
我々はまず,連続時間RLで一般的に使用される平均平方TDエラー(MSTDE)アルゴリズムを再検討し,状態ダイナミクスのジャンプ処理における制限を強調した。
提案したMSBVEアルゴリズムは平均2乗2乗変動誤差を最小化し,ジャンプを伴うSDEを特徴とする環境におけるMSTDEよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2024-11-18T16:17:34Z) - Bisimulation metric for Model Predictive Control [44.301098448479195]
Bisimulation Metric for Model Predictive Control (BS-MPC) は、目的関数にbisimulation metric lossを組み込んでエンコーダを直接最適化する新しい手法である。
BS-MPCは、トレーニング時間を削減することにより、トレーニング安定性、入力ノイズに対する堅牢性、および計算効率を向上させる。
我々は,DeepMind Control Suiteから連続制御および画像ベースタスクのBS-MPCを評価する。
論文 参考訳(メタデータ) (2024-10-06T17:12:10Z) - Efficient and Sharp Off-Policy Evaluation in Robust Markov Decision Processes [44.974100402600165]
意思決定プロセス(MDP)に対する最良パラメトリックかつ最悪の摂動の評価について検討する。
我々は、元のMDPからの遷移観測を用いて、それらが同一または異なるポリシーの下で生成されるかのどちらかを判断する。
我々の推定器はウォルドの信頼区間を用いた統計的推測も行う。
論文 参考訳(メタデータ) (2024-03-29T18:11:49Z) - On the Practicality of Deterministic Epistemic Uncertainty [106.06571981780591]
決定論的不確実性法(DUM)は,分布外データの検出において高い性能を達成する。
DUMが十分に校正されており、現実のアプリケーションにシームレスにスケールできるかどうかは不明だ。
論文 参考訳(メタデータ) (2021-07-01T17:59:07Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。