論文の概要: Pragmatic Policy Development via Interpretable Behavior Cloning
- arxiv url: http://arxiv.org/abs/2507.17056v1
- Date: Tue, 22 Jul 2025 22:34:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.793849
- Title: Pragmatic Policy Development via Interpretable Behavior Cloning
- Title(参考訳): 解釈可能な行動クローニングによる実用的政策開発
- Authors: Anton Matsson, Yaochen Rao, Heather J. Litman, Fredrik D. Johansson,
- Abstract要約: 本稿では,患者の行動方針の解釈可能なモデルを用いて,各患者の状態において最も頻繁に選択される行動から治療方針を導出する。
このフレームワークによって導かれるポリシーは,オフラインのRLで得られるものに対して,解釈可能な代替手段を提供することで,現在の実践を上回り得ることを実証する。
- 参考スコア(独自算出の注目度): 6.177449809243359
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) holds great promise for deriving optimal policies from observational data, but challenges related to interpretability and evaluation limit its practical use in safety-critical domains. Interpretability is hindered by the black-box nature of unconstrained RL policies, while evaluation -- typically performed off-policy -- is sensitive to large deviations from the data-collecting behavior policy, especially when using methods based on importance sampling. To address these challenges, we propose a simple yet practical alternative: deriving treatment policies from the most frequently chosen actions in each patient state, as estimated by an interpretable model of the behavior policy. By using a tree-based model, which is specifically designed to exploit patterns in the data, we obtain a natural grouping of states with respect to treatment. The tree structure ensures interpretability by design, while varying the number of actions considered controls the degree of overlap with the behavior policy, enabling reliable off-policy evaluation. This pragmatic approach to policy development standardizes frequent treatment patterns, capturing the collective clinical judgment embedded in the data. Using real-world examples in rheumatoid arthritis and sepsis care, we demonstrate that policies derived under this framework can outperform current practice, offering interpretable alternatives to those obtained via offline RL.
- Abstract(参考訳): オフライン強化学習(RL)は、観測データから最適なポリシーを導出する大きな可能性を秘めている。
解釈性は、制約のないRLポリシーのブラックボックスの性質によって妨げられるが、評価(一般的には非政治)は、特に重要サンプリングに基づく手法を使用する場合、データ収集行動ポリシーからの大きな逸脱に敏感である。
これらの課題に対処するために、我々は、行動方針の解釈可能なモデルによって推定されるように、各患者の状態において最も頻繁に選択された行動から治療方針を導出する、単純で実用的な方法を提案する。
データ内のパターンを利用するために特別に設計されたツリーベースモデルを使用することで、処理に関する状態の自然なグループ化が得られる。
ツリー構造は、設計による解釈性を確保すると同時に、考慮されたアクションの数を変えて、行動ポリシーと重複する度合いを制御し、信頼性の高い非政治評価を可能にする。
ポリシー開発に対するこの実践的なアプローチは、頻繁な治療パターンを標準化し、データに埋め込まれた総合的な臨床判断をキャプチャする。
慢性関節リウマチや敗血症治療における実例を用いて,この枠組みによって引き起こされた政策が,オフラインのRLで得られるものに対する解釈可能な代替手段として,現在の実践より優れていることを実証した。
関連論文リスト
- Distributionally Robust Policy Evaluation and Learning for Continuous Treatment with Observational Data [20.125760566665704]
政策評価と学習にオフライン観測データを使用することで、意思決定者は特性と介入を結びつける政策を評価し学習することができる。
既存の文献の多くは、個別の処理空間に焦点を絞ったり、政策学習環境と政策デプロイ環境の分布に違いを仮定しなかったりしている。
本稿では, 継続的処理環境下での分散的ロバストなポリシーの開発に焦点をあてる。
論文 参考訳(メタデータ) (2025-01-18T08:12:56Z) - Optimizing Warfarin Dosing Using Contextual Bandit: An Offline Policy
Learning and Evaluation Method [2.8806234438838256]
抗凝固薬であるワーファリンは、異常な血液凝固に関連する疾患を予防し、対処するために配合される。
個々の反応の変化によって適切な服薬を見つけることは依然として困難であり、誤った服薬を処方することは深刻な結果をもたらす可能性がある。
最適な個人用服用戦略を決定するために,文脈的包帯と強化学習を用いた。
論文 参考訳(メタデータ) (2024-02-16T23:13:05Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Offline Reinforcement Learning with On-Policy Q-Function Regularization [57.09073809901382]
ヒストリーデータセットと所望のポリシー間の分布シフトによって引き起こされる(潜在的に破滅的な)外挿誤差に対処する。
正規化により推定Q-関数を利用する2つのアルゴリズムを提案し、D4RLベンチマークに強い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-07-25T21:38:08Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - Offline Policy Evaluation and Optimization under Confounding [35.778917456294046]
構築されたMDPのオフライン政策評価の状況について概説する。
一貫性のある値推定が達成不可能な設定を特徴付ける。
オフライン政策改善のための新しいアルゴリズムを提案し、局所収束保証を証明する。
論文 参考訳(メタデータ) (2022-11-29T20:45:08Z) - Offline Reinforcement Learning with Soft Behavior Regularization [0.8937096931077437]
本研究では,オフライン設定で使用可能な新しいポリシー学習目標を導出する。
以前のアプローチで使用されていた状態非依存の正規化とは異なり、このテキストソフト正規化はポリシー逸脱のより自由な自由を可能にする。
実験結果から,SBACは連続的な制御ロコモーションと操作タスクのセットにおいて,最先端技術に適合または優れることが示された。
論文 参考訳(メタデータ) (2021-10-14T14:29:44Z) - Continuous Action Reinforcement Learning from a Mixture of Interpretable
Experts [35.80418547105711]
本稿では,複雑な関数近似を内部値予測に保持するポリシスキームを提案する。
この論文の主な技術的貢献は、この非微分不可能な状態選択手順によってもたらされた課題に対処することである。
論文 参考訳(メタデータ) (2020-06-10T16:02:08Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Efficient Evaluation of Natural Stochastic Policies in Offline
Reinforcement Learning [80.42316902296832]
行動政策から逸脱した観点から定義される自然政策の効果的な非政治的評価について検討する。
これは、ほとんどの著作が明示された政策の評価を考慮に入れている、政治外の評価に関する文献から逸脱している。
論文 参考訳(メタデータ) (2020-06-06T15:08:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。