論文の概要: Active Measuring in Reinforcement Learning With Delayed Negative Effects
- arxiv url: http://arxiv.org/abs/2510.14315v1
- Date: Thu, 16 Oct 2025 05:21:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.73335
- Title: Active Measuring in Reinforcement Learning With Delayed Negative Effects
- Title(参考訳): 遅延負の効果による強化学習の能動的測定
- Authors: Daiqi Gao, Ziping Xu, Aseel Rawashdeh, Predrag Klasnja, Susan A. Murphy,
- Abstract要約: 強化学習(RL)における状態の測定は、現実の環境ではコストがかかり、将来の結果に悪影響を及ぼす可能性がある。
我々は、エージェントが制御アクションを選択するだけでなく、潜伏状態を測定するかどうかを判断する、アクティブ観測可能なマルコフ決定プロセス(AOMDP)を導入する。
このような不確実性の低減は、これらのコストにもかかわらず、サンプル効率を向上し、最適な政策の価値を高める可能性がある。
- 参考スコア(独自算出の注目度): 10.792933031825527
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Measuring states in reinforcement learning (RL) can be costly in real-world settings and may negatively influence future outcomes. We introduce the Actively Observable Markov Decision Process (AOMDP), where an agent not only selects control actions but also decides whether to measure the latent state. The measurement action reveals the true latent state but may have a negative delayed effect on the environment. We show that this reduced uncertainty may provably improve sample efficiency and increase the value of the optimal policy despite these costs. We formulate an AOMDP as a periodic partially observable MDP and propose an online RL algorithm based on belief states. To approximate the belief states, we further propose a sequential Monte Carlo method to jointly approximate the posterior of unknown static environment parameters and unobserved latent states. We evaluate the proposed algorithm in a digital health application, where the agent decides when to deliver digital interventions and when to assess users' health status through surveys.
- Abstract(参考訳): 強化学習(RL)における状態の測定は、現実の環境ではコストがかかり、将来の結果に悪影響を及ぼす可能性がある。
AOMDP(Actively Observable Markov Decision Process)を導入し、エージェントが制御アクションを選択するだけでなく、潜時状態を測定するかどうかを判断する。
測定動作は真の潜伏状態を明らかにするが、環境に悪影響を及ぼす可能性がある。
このような不確実性の低減は、これらのコストにもかかわらず、サンプル効率を向上し、最適な政策の価値を高める可能性がある。
本稿では,周期的部分観測可能なMDPとしてAOMDPを定式化し,信念状態に基づくオンラインRLアルゴリズムを提案する。
さらに,未知の静的環境パラメータと観測されていない潜在状態の後方を共同で近似する逐次モンテカルロ法を提案する。
提案手法をデジタルヘルスアプリケーションで評価し,デジタル介入をいつ行うか,ユーザの健康状態を評価するタイミングを調査を通じて決定する。
関連論文リスト
- Efficient and Sharp Off-Policy Evaluation in Robust Markov Decision Processes [44.974100402600165]
意思決定プロセス(MDP)に対する最良パラメトリックかつ最悪の摂動の評価について検討する。
我々は、元のMDPからの遷移観測を用いて、それらが同一または異なるポリシーの下で生成されるかのどちらかを判断する。
我々の推定器はウォルドの信頼区間を用いた統計的推測も行う。
論文 参考訳(メタデータ) (2024-03-29T18:11:49Z) - Act-Then-Measure: Reinforcement Learning for Partially Observable
Environments with Active Measuring [4.033107207078282]
我々はマルコフ決定プロセス(MDP)について検討し、エージェントはいつどのように情報を集めるかを直接制御する。
これらのモデルでは、アクションは環境に影響を与える制御アクションと、エージェントが観察できるものに影響を与える測定アクションの2つのコンポーネントで構成される。
この仮定に従うと、ポリシー時間が短くなり、計算によって生じる性能損失の限界が証明される。
論文 参考訳(メタデータ) (2023-03-14T23:22:32Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Smoother Entropy for Active State Trajectory Estimation and Obfuscation
in POMDPs [3.42658286826597]
よりスムーズなエントロピーの最適化は オルタナティブアプローチと比較して 軌道推定と難読化に 繋がる
コンケーブコストとコスト・ツー・ゴー機能によるアクティブ・アセスメントと難読化の両面での信念-状態 MDP の再構成を同定する。
論文 参考訳(メタデータ) (2021-08-19T00:05:55Z) - On the Practicality of Deterministic Epistemic Uncertainty [106.06571981780591]
決定論的不確実性法(DUM)は,分布外データの検出において高い性能を達成する。
DUMが十分に校正されており、現実のアプリケーションにシームレスにスケールできるかどうかは不明だ。
論文 参考訳(メタデータ) (2021-07-01T17:59:07Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。