論文の概要: Power Constrained Nonstationary Bandits with Habituation and Recovery Dynamics
- arxiv url: http://arxiv.org/abs/2511.02944v1
- Date: Tue, 04 Nov 2025 19:46:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.225648
- Title: Power Constrained Nonstationary Bandits with Habituation and Recovery Dynamics
- Title(参考訳): 居住・回復ダイナミクスを考慮した電力制約非定常帯域
- Authors: Fengxu Li, Stephanie M. Carpenter, Matthew P. Buman, Yonatan Mintz,
- Abstract要約: 本稿では,ROGUEフレームワークに適したトンプソンサンプリングアルゴリズムを提案する。
次に、パーソナライゼーションと集団レベルの学習のバランスをとるために、確率的クリッピング手法を導入する。
マイクロランダム化試験を設計する研究者にとって、我々のフレームワークはパーソナライズと統計的妥当性のバランスをとるための実践的なガイダンスを提供する。
- 参考スコア(独自算出の注目度): 0.9699640804685629
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A common challenge for decision makers is selecting actions whose rewards are unknown and evolve over time based on prior policies. For instance, repeated use may reduce an action's effectiveness (habituation), while inactivity may restore it (recovery). These nonstationarities are captured by the Reducing or Gaining Unknown Efficacy (ROGUE) bandit framework, which models real-world settings such as behavioral health interventions. While existing algorithms can compute sublinear regret policies to optimize these settings, they may not provide sufficient exploration due to overemphasis on exploitation, limiting the ability to estimate population-level effects. This is a challenge of particular interest in micro-randomized trials (MRTs) that aid researchers in developing just-in-time adaptive interventions that have population-level effects while still providing personalized recommendations to individuals. In this paper, we first develop ROGUE-TS, a Thompson Sampling algorithm tailored to the ROGUE framework, and provide theoretical guarantees of sublinear regret. We then introduce a probability clipping procedure to balance personalization and population-level learning, with quantified trade-off that balances regret and minimum exploration probability. Validation on two MRT datasets concerning physical activity promotion and bipolar disorder treatment shows that our methods both achieve lower regret than existing approaches and maintain high statistical power through the clipping procedure without significantly increasing regret. This enables reliable detection of treatment effects while accounting for individual behavioral dynamics. For researchers designing MRTs, our framework offers practical guidance on balancing personalization with statistical validity.
- Abstract(参考訳): 意思決定者にとって一般的な課題は、報酬が未知であり、以前のポリシーに基づいて時間とともに進化するアクションを選択することである。
例えば、反復的な使用は行動の有効性(居住率)を低下させるが、不活性はそれを回復させる(回復)ことができる。
これらの非定常性は、行動の健康介入のような現実世界の設定をモデル化するROGUE(Reduceing or Gaining Unknown Efficacy)バンドレートフレームワークによってキャプチャされる。
既存のアルゴリズムでは、これらの設定を最適化するためにサブ線形後悔ポリシーを計算できるが、エクスプロイトに対する過度な評価のために十分な探索を提供しておらず、人口レベルの効果を推定する能力が制限される可能性がある。
これは、研究者が個人にパーソナライズされたレコメンデーションを提供しながら、人口レベルの影響を持つジャスト・イン・タイム適応的介入を開発するのを助けるマイクロランダム化試験(MRT)に特に関心がある課題である。
本稿では,まず,ROGUEフレームワークに適したトンプソンサンプリングアルゴリズムであるROGUE-TSを開発し,サブ線形後悔の理論的保証を提供する。
次に,パーソナライゼーションと集団レベルの学習のバランスをとるための確率的クリッピング手法を導入する。
身体活動促進と双極性障害治療に関する2つのMRTデータセットの検証は、既存の手法よりも少ない後悔を達成し、クリッピング法により高い統計力を維持できるが、後悔は顕著に増加しないことを示している。
これにより、個々の行動力学を考慮に入れながら、治療効果を確実に検出できる。
MRTを設計する研究者にとって、我々のフレームワークはパーソナライズと統計的妥当性のバランスをとるための実践的なガイダンスを提供する。
関連論文リスト
- Disparate Impact on Group Accuracy of Linearization for Private Inference [48.27026603581436]
多数派と比較して,ReLUアクティベーション数の減少は少数派に対する精度を著しく低下させることを示す。
また,線形化モデルの微調整手順を変更する簡単な手順が,効果的な緩和戦略として有効であることを示す。
論文 参考訳(メタデータ) (2024-02-06T01:56:29Z) - Doubly Robust Proximal Causal Learning for Continuous Treatments [56.05592840537398]
本稿では,カーネルベースの2倍頑健な因果学習推定器を提案する。
オラクル形式は影響関数の一貫した近似であることを示す。
次に、平均二乗誤差の観点から総合収束解析を行う。
論文 参考訳(メタデータ) (2023-09-22T12:18:53Z) - A Meta-Learning Method for Estimation of Causal Excursion Effects to Assess Time-Varying Moderation [0.0]
DR-W」は、メタラーナーの観点から因果抽出効果を推定するための、柔軟で二重に頑健な推論法である。
提案する推定器の双方向特性を理論的およびシミュレーションにより比較する。
結果は、観察不足や不確実な治療ランダム化確率であっても、一貫した、より効率的な見積もりを示す。
論文 参考訳(メタデータ) (2023-06-28T15:19:33Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Estimating Optimal Infinite Horizon Dynamic Treatment Regimes via
pT-Learning [2.0625936401496237]
モバイルヘルス(mHealth)技術の最近の進歩は、個人の健康状態を監視し、ジャスト・イン・タイムのパーソナライズされた介入を提供する効果的な方法を提供する。
mHealthテクノロジーの実用化は、最適な動的治療体制を学習する上で、既存の方法論に固有の課題を提起する。
本稿では,決定論的とスパース政策モデルの間で適応的に調整された最適条件を推定する近時学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T18:38:22Z) - DTR Bandit: Learning to Make Response-Adaptive Decisions With Low Regret [59.81290762273153]
動的治療体制 (DTR) はパーソナライズされ適応された多段階の治療計画であり、治療決定を個人の初期特徴に適応させ、その後の各段階における中間結果と特徴に適応させる。
本稿では,探索と搾取を慎重にバランスさせることで,遷移モデルと報酬モデルが線形である場合に,速度-最適後悔を実現する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T13:03:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。