論文の概要: Leveraging Factored Action Spaces for Efficient Offline Reinforcement
Learning in Healthcare
- arxiv url: http://arxiv.org/abs/2305.01738v1
- Date: Tue, 2 May 2023 19:13:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 16:49:20.494754
- Title: Leveraging Factored Action Spaces for Efficient Offline Reinforcement
Learning in Healthcare
- Title(参考訳): 医療における効果的なオフライン強化学習のための因子的行動空間の活用
- Authors: Shengpu Tang, Maggie Makar, Michael W. Sjoding, Finale Doshi-Velez,
Jenna Wiens
- Abstract要約: 本稿では, 因子化作用空間によって誘導される線形Q-関数分解の形式を提案する。
我々の手法は、状態-作用空間の未探索領域内でエージェントがより正確な推論を行うのに役立つ。
- 参考スコア(独自算出の注目度): 38.42691031505782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many reinforcement learning (RL) applications have combinatorial action
spaces, where each action is a composition of sub-actions. A standard RL
approach ignores this inherent factorization structure, resulting in a
potential failure to make meaningful inferences about rarely observed
sub-action combinations; this is particularly problematic for offline settings,
where data may be limited. In this work, we propose a form of linear Q-function
decomposition induced by factored action spaces. We study the theoretical
properties of our approach, identifying scenarios where it is guaranteed to
lead to zero bias when used to approximate the Q-function. Outside the regimes
with theoretical guarantees, we show that our approach can still be useful
because it leads to better sample efficiency without necessarily sacrificing
policy optimality, allowing us to achieve a better bias-variance trade-off.
Across several offline RL problems using simulators and real-world datasets
motivated by healthcare, we demonstrate that incorporating factored action
spaces into value-based RL can result in better-performing policies. Our
approach can help an agent make more accurate inferences within underexplored
regions of the state-action space when applying RL to observational datasets.
- Abstract(参考訳): 多くの強化学習(RL)アプリケーションは組合せアクション空間を持ち、各アクションはサブアクションの合成である。
標準的なRLアプローチは、この固有の分解構造を無視しており、稀に観察されるサブアクションの組み合わせについて有意義な推論を行うことができない可能性がある。
本研究では,因子付き作用空間によって引き起こされる線形q関数分解の一形態を提案する。
本手法の理論的性質を考察し,q関数の近似に用いる場合,バイアスゼロとなることが保証されるシナリオを特定する。
理論的保証のある体制以外では、政策の最適性を犠牲にすることなく、より優れたサンプリング効率をもたらすため、より優れたバイアス分散トレードオフを達成することができるため、我々のアプローチは依然として有用であることを示す。
シミュレーターと実世界のデータセットを用いたいくつかのオフラインのRL問題に対して、ファクタリングされたアクション空間をバリューベースRLに組み込むことで、より良いパフォーマンスのポリシーを実現できることを示す。
我々のアプローチは、RLを観測データセットに適用する場合、エージェントが状態-作用空間の未探索領域内でより正確な推論を行うのに役立つ。
関連論文リスト
- Sparsity-based Safety Conservatism for Constrained Offline Reinforcement Learning [4.0847743592744905]
強化学習(Reinforcement Learning, RL)は、自律運転やロボット操作といった意思決定分野で大きな成功を収めている。
RLのトレーニングアプローチは、"オン・ポリティクス(on-policy)"サンプリングを中心にしているが、データを完全には活用していない。
オフラインRLは魅力的な代替手段として現れており、特に追加実験を行うことは実用的ではない。
論文 参考訳(メタデータ) (2024-07-17T20:57:05Z) - Revisiting the Linear-Programming Framework for Offline RL with General
Function Approximation [24.577243536475233]
オフライン強化学習(RL)は、事前に収集されたデータセットからシーケンシャルな意思決定のための最適なポリシーを追求する。
近年の理論的進歩は、データカバレッジと関数近似器に関する様々な緩和された仮定を持つサンプル効率の良いオフラインRLアルゴリズムの開発に焦点が当てられている。
オフラインRLのための線形プログラミングフレームワークを再検討し、いくつかの面で既存の結果を前進させます。
論文 参考訳(メタデータ) (2022-12-28T15:28:12Z) - Towards Deployment-Efficient Reinforcement Learning: Lower Bound and
Optimality [141.89413461337324]
展開効率は、強化学習(RL)の多くの実世界の応用にとって重要な基準である
本稿では,「制約付き最適化」の観点から,デプロイ効率の高いRL(DE-RL)の理論的定式化を提案する。
論文 参考訳(メタデータ) (2022-02-14T01:31:46Z) - Offline Reinforcement Learning: Fundamental Barriers for Value Function
Approximation [74.3002974673248]
本稿では,ログデータから意思決定方針を学習することを目的としたオフライン強化学習問題を考察する。
オンラインデータ収集は安全クリティカルなドメインに適しているため、オフラインのRLは現実的にますます重要になっている。
以上の結果から, サンプル効率の良いオフライン強化学習には, 制限的カバレッジ条件か, あるいは複雑性学習を超える表現条件が必要であることが示唆された。
論文 参考訳(メタデータ) (2021-11-21T23:22:37Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Instabilities of Offline RL with Pre-Trained Neural Representation [127.89397629569808]
オフライン強化学習(RL)では、オフラインデータを利用して、評価対象のポリシーのそれとは大きく異なる分布からデータが収集されるシナリオでポリシーを評価する(または学習する)ことを目指しています。
最近の理論的進歩は、そのようなサンプル効率の良いオフラインRLが確かにある強い表現条件が保持されることを示した。
本研究は,オフラインrlメソッドの安定性を評価するために,経験的視点からこれらの問題を考察する。
論文 参考訳(メタデータ) (2021-03-08T18:06:44Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。