論文の概要: Feasibility-Guided Fair Adaptive Offline Reinforcement Learning for Medicaid Care Management
- arxiv url: http://arxiv.org/abs/2509.09655v1
- Date: Thu, 11 Sep 2025 17:50:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.500255
- Title: Feasibility-Guided Fair Adaptive Offline Reinforcement Learning for Medicaid Care Management
- Title(参考訳): メディケイドケアマネジメントのための適合型公正オフライン強化学習の実現可能性
- Authors: Sanjay Basu, Sadiq Y. Patel, Parth Sheth, Bhairavi Muralidharan, Namrata Elamaran, Aakriti Kinra, Rajaie Batniji,
- Abstract要約: FG-FARL(Fasibility-Guided Fair Adaptive Reinforcement Learning)を紹介する。
FG-FARLは、保護されたサブグループ間で選択された公正目標(カバーまたは害)を等化しながら、グループごとの安全閾値を校正し、害を軽減する。
- 参考スコア(独自算出の注目度): 1.5635627702544692
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Feasibility-Guided Fair Adaptive Reinforcement Learning (FG-FARL), an offline RL procedure that calibrates per-group safety thresholds to reduce harm while equalizing a chosen fairness target (coverage or harm) across protected subgroups. Using de-identified longitudinal trajectories from a Medicaid population health management program, we evaluate FG-FARL against behavior cloning (BC) and HACO (Hybrid Adaptive Conformal Offline RL; a global conformal safety baseline). We report off-policy value estimates with bootstrap 95% confidence intervals and subgroup disparity analyses with p-values. FG-FARL achieves comparable value to baselines while improving fairness metrics, demonstrating a practical path to safer and more equitable decision support.
- Abstract(参考訳): FG-FARL(Fasibility-Guided Fair Adaptive Reinforcement Learning, FG-FARL)は、グループごとの安全基準を校正し、保護されたサブグループ間で選択された公正目標(カバーまたは害)を等化しながら、害を軽減するオフラインRL手順である。
メディケイドの健康管理プログラムから分離された縦方向軌跡を用いて,行動クローニング(BC)とHACO(Hybrid Adaptive Conformal Offline RL,グローバルコンフォーマル安全基準)に対するFG-FARLの評価を行った。
ブートストラップ95%の信頼区間とp値を用いたサブグループ不均一性分析によるオフ政治価値推定を報告する。
FG-FARLは、基準値に匹敵する値を達成し、公正度指標を改善し、より安全で公平な意思決定支援のための実践的な道を示す。
関連論文リスト
- Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。
しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。
本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-27T17:31:21Z) - Value-Incentivized Preference Optimization: A Unified Approach to Online and Offline RLHF [80.32171988565999]
オンラインとオフラインのRLHFに統一的なアプローチを導入します。
VPOは、報酬関数の最大値推定を対応する値関数で正規化する。
テキスト要約とダイアログの実験は、VPOの実用性と有効性を検証する。
論文 参考訳(メタデータ) (2024-05-29T17:51:42Z) - Policy Gradient Methods for Risk-Sensitive Distributional Reinforcement Learning with Provable Convergence [15.720824593964027]
本稿では,リスクに敏感なDRLに対して,一般的なコヒーレントリスク対策を用いた新しいポリシー勾配法を提案する。
実用上,ある固定点に支持されたカテゴリ群による任意の分布を近似するカテゴリ分布ポリシー勾配アルゴリズム (GCDP) を設計する。
論文 参考訳(メタデータ) (2024-05-23T16:16:58Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Offline Reinforcement Learning with Adaptive Behavior Regularization [1.491109220586182]
オフライン強化学習(RL)は、静的で以前に収集されたデータセットからポリシーを学習する、サンプル効率のよい学習パラダイムを定義する。
適応行動正規化(Adaptive Behavior regularization, ABR)と呼ばれる新しい手法を提案する。
ABRは、データセットの生成に使用するポリシーのクローン化と改善の間に、ポリシーの最適化目標を適応的に調整することを可能にする。
論文 参考訳(メタデータ) (2022-11-15T15:59:11Z) - BRAC+: Improved Behavior Regularized Actor Critic for Offline
Reinforcement Learning [14.432131909590824]
オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。
標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。
動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
論文 参考訳(メタデータ) (2021-10-02T23:55:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。