論文の概要: From Robotics to Sepsis Treatment: Offline RL via Geometric Pessimism
- arxiv url: http://arxiv.org/abs/2602.08655v1
- Date: Mon, 09 Feb 2026 13:48:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.252613
- Title: From Robotics to Sepsis Treatment: Offline RL via Geometric Pessimism
- Title(参考訳): ロボティクスからセプシス治療へ:幾何学的ペシミズムによるオフラインRL
- Authors: Sarthak Wanjari,
- Abstract要約: CQLのようなメソッドは厳格な保守性を提供しますが、膨大な計算能力が必要です。
IQLはしばしば、病理データセットのOODエラーの修正に失敗し、Behavioural Cloningに崩壊する。
我々は密度に基づくペナルティで標準のIQLを拡張する計算効率の高いフレームワークであるGeometric Pessimismを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline Reinforcement Learning (RL) promises the recovery of optimal policies from static datasets, yet it remains susceptible to the overestimation of out-of-distribution (OOD) actions, particularly in fractured and sparse data manifolds.Current solutions necessitates a trade off between computational efficiency and performance. Methods like CQL offers rigorous conservatism but require tremendous compute power while efficient expectile-based methods like IQL often fail to correct OOD errors on pathological datasets, collapsing to Behavioural Cloning. In this work, we propose Geometric Pessimism, a modular, compute-efficient framework that augments standard IQL with density-based penalty derived from k-nearest-neighbour distances in the state-action embedding space. By pre-computing the penalties applied to each state-action pair our method injects OOD conservatism via reward shaping with a O(1) training overhead. Evaluated on the D4Rl MuJoCo benchmark, our method, Geo-IQL outperforms standard IQL on sensitive and unstable medium-replay tasks by over 18 points, while reducing inter-seed variance by 4x. Furthermore, Geo-IQL does not degrade performance on stable manifolds. Crucially, we validate our algorithm on the MIMIC-III Sepsis critical care dataset. While standard IQL collapses to behaviour cloning, Geo-IQL demonstrates active policy improvement. Maintaining safety constraints, achieving 86.4% terminal agreement with clinicians compared to IQL's 75%. Our results suggest that geometric pessimism provides the necessary regularisation to safely overcome local optima in critical, real-world decision systems.
- Abstract(参考訳): オフライン強化学習(RL)は、静的データセットから最適なポリシーの回復を約束するが、特に破壊的かつスパースなデータ多様体において、アウト・オブ・ディストリビューション(OOD)アクションの過大評価の影響を受けやすい。
CQLのようなメソッドは厳格な保守性を提供するが、膨大な計算能力を必要とする一方で、IQLのような効率的な予測ベースのメソッドは、病理的なデータセット上でのOODエラーの修正に失敗し、Behavioural Cloningに崩壊することが多い。
本研究では,状態-作用埋め込み空間におけるk-アレスト近傍距離から得られる密度に基づくペナルティを標準IQLに拡張した,モジュール型で計算効率のよいフレームワークであるGeometric Pessimismを提案する。
それぞれの状態-作用ペアに適用される罰則を事前計算することにより、OOD保存性をO(1)トレーニングオーバーヘッドによる報酬整形により注入する。
D4Rl MuJoCoベンチマークで評価したところ,Geo-IQLは,高感度で不安定な中間再生タスクにおいて標準のIQLよりも18ポイント高い性能を示し,シード間分散を4倍に低減した。
さらに、Geo-IQLは安定多様体の性能を劣化させない。
重要な点として、MIMIC-III Sepsis クリティカルケアデータセット上でアルゴリズムを検証する。
標準のIQLは動作クローンに崩壊するが、Geo-IQLは積極的なポリシー改善を示している。
IQLの75%と比較して、安全上の制約を維持し、臨床医との86.4%の契約を達成している。
この結果から,幾何学的悲観主義は,批判的かつ現実的な意思決定システムにおいて,局所最適性を安全に克服するために必要な規則化をもたらすことが示唆された。
関連論文リスト
- CS-GBA: A Critical Sample-based Gradient-guided Backdoor Attack for Offline Reinforcement Learning [7.5200963577855875]
オフライン強化学習(RL)は、静的データセットからのポリシー最適化を可能にするが、バックドア攻撃に対して本質的に脆弱である。
我々は,厳格な予算の下で高い盗難と破壊性を達成すべく,CS-GBA(Critical Sample-based Gradient-Guided Backdoor Attack)を提案する。
論文 参考訳(メタデータ) (2026-01-15T13:57:52Z) - Benchmarking Offline Multi-Objective Reinforcement Learning in Critical Care [0.07161783472741748]
批判的なケア環境では、臨床医は競合する目標のバランスをとることの難しさに直面し、主に患者の生存を最大化し、資源利用を最小化する。
単目的強化学習のアプローチは通常、固定されたスカラー化された報酬関数を最適化することでこの問題に対処する。
本稿では,MIMIC-IVデータセット上の3つの単目的ベースラインに対して,3つのオフラインMORLアルゴリズムをベンチマークする。
論文 参考訳(メタデータ) (2025-12-08T20:09:15Z) - Adaptive Neighborhood-Constrained Q Learning for Offline Reinforcement Learning [52.03884701766989]
オフライン強化学習(RL)アルゴリズムは、通常、アクション選択に制約を課す。
本稿では,Bellmanターゲットにおける行動選択を,データセットアクションの近傍の結合に制限する新しい地区制約を提案する。
我々は,この制約を満たす目標動作を用いてQ学習を行うための,単純で効果的なアルゴリズムであるAdaptive Neighborhood-Constrained Q Learning(ANQ)を開発した。
論文 参考訳(メタデータ) (2025-11-04T13:42:05Z) - ACL-QL: Adaptive Conservative Level in Q-Learning for Offline Reinforcement Learning [46.67828766038463]
本稿では,Q-Learning(ACL-QL)における適応保守レベル(Adaptive Conservative Level in Q-Learning, ACL-QL)を提案する。
ACL-QLは、各状態-作用ペアに対する保守的なレベルの適応的な制御を可能にする。
理論解析により,2つの学習可能な適応重み関数を用いて各遷移の保守レベルを制御する新しいアルゴリズム ACL-QL を提案する。
論文 参考訳(メタデータ) (2024-12-22T04:18:02Z) - Hypercube Policy Regularization Framework for Offline Reinforcement Learning [2.01030009289749]
本稿では,ハイパーキューブポリシーの正規化フレームワークを提案する。
これにより、エージェントは静的データセット内の同様の状態に対応するアクションを探索できる。
ハイパーキューブポリシーの正規化フレームワークは,元のアルゴリズムの性能を効果的に向上させることができることが理論的に実証された。
論文 参考訳(メタデータ) (2024-11-07T08:48:32Z) - Strategically Conservative Q-Learning [89.17906766703763]
オフライン強化学習(RL)は、RLの実用性を拡張するための魅力的なパラダイムである。
オフラインRLの最大の難しさは、オフ・オブ・ディストリビューション(OOD)アクションに遭遇する際の近似誤差の影響を緩和することである。
本稿では, 予測が容易かつ困難であるOODデータを識別する, SCQ(Strategical conservative Q-Learning) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T22:09:46Z) - Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。
ソフトマージン条件下でのバニラQ関数の類似した結果を示す。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文 参考訳(メタデータ) (2023-02-05T14:22:41Z) - Stochastic Optimization of Areas Under Precision-Recall Curves with
Provable Convergence [66.83161885378192]
ROC(AUROC)と精度リコール曲線(AUPRC)の下の領域は、不均衡問題に対する分類性能を評価するための一般的な指標である。
本稿では,深層学習のためのAUPRCの最適化手法を提案する。
論文 参考訳(メタデータ) (2021-04-18T06:22:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。