論文の概要: Optimizing Pessimism in Dynamic Treatment Regimes: A Bayesian Learning
Approach
- arxiv url: http://arxiv.org/abs/2210.14420v1
- Date: Wed, 26 Oct 2022 02:14:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 13:18:38.348623
- Title: Optimizing Pessimism in Dynamic Treatment Regimes: A Bayesian Learning
Approach
- Title(参考訳): 動的治療レジームにおけるペシミズムの最適化:ベイズ学習アプローチ
- Authors: Yunzhe Zhou, Zhengling Qi, Chengchun Shi and Lexin Li
- Abstract要約: 本稿では,オフライン環境における最適動的処理系のための,悲観的に基づく新しいベイズ学習法を提案する。
我々は悲観主義の原理をトンプソンサンプリングとベイズ機械学習と統合し、悲観主義の度合いを最適化する。
本研究では,高効率かつスケーラブルな変分推論に基づく計算アルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 6.7826352751791985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this article, we propose a novel pessimism-based Bayesian learning method
for optimal dynamic treatment regimes in the offline setting. When the coverage
condition does not hold, which is common for offline data, the existing
solutions would produce sub-optimal policies. The pessimism principle addresses
this issue by discouraging recommendation of actions that are less explored
conditioning on the state. However, nearly all pessimism-based methods rely on
a key hyper-parameter that quantifies the degree of pessimism, and the
performance of the methods can be highly sensitive to the choice of this
parameter. We propose to integrate the pessimism principle with Thompson
sampling and Bayesian machine learning for optimizing the degree of pessimism.
We derive a credible set whose boundary uniformly lower bounds the optimal
Q-function, and thus does not require additional tuning of the degree of
pessimism. We develop a general Bayesian learning method that works with a
range of models, from Bayesian linear basis model to Bayesian neural network
model. We develop the computational algorithm based on variational inference,
which is highly efficient and scalable. We establish the theoretical guarantees
of the proposed method, and show empirically that it outperforms the existing
state-of-the-art solutions through both simulations and a real data example.
- Abstract(参考訳): 本稿では,オフライン環境での最適動的処理レジームに対するペシミズムに基づくベイズ学習法を提案する。
オフラインデータに共通するカバレッジ条件が保持されない場合、既存のソリューションは最適なサブポリシーを生成する。
悲観主義の原則は、州における条件付けの少ない行動の推奨を妨げることでこの問題に対処する。
しかし、ほぼ全ての悲観主義に基づく手法は、悲観論の度合いを定量化する鍵のハイパーパラメータに依存しており、このパラメータの選択に非常に敏感である。
我々は,悲観主義の原理をトンプソンサンプリングとベイズ機械学習と統合し,悲観主義の度合いを最適化することを提案する。
最適Q-函数の境界が一様に低く、したがって悲観論の次数の追加的なチューニングを必要としない信頼可能な集合を導出する。
ベイズ線形基底モデルからベイズニューラルネットワークモデルまで,様々なモデルを扱う一般的なベイズ学習法を開発した。
本研究では,高効率かつスケーラブルな変分推論に基づく計算アルゴリズムを開発した。
提案手法の理論的保証を確立し、シミュレーションと実データ例の両方を通して既存の最先端ソリューションよりも優れていることを実証的に示す。
関連論文リスト
- Bayesian Exploration Networks [30.98996034003365]
ベイズ RL の鍵となる課題は、ベイズ最適化ポリシーを学習する際の計算複雑性である。
この課題に対処するための新しいモデルフリーアプローチを提案する。
提案手法は,既存のモデルフリーアプローチが失敗するタスクにおいて,ベイズ最適ポリシーを学習可能であることを示す。
論文 参考訳(メタデータ) (2023-08-24T19:35:58Z) - Making Linear MDPs Practical via Contrastive Representation Learning [101.75885788118131]
マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。
本稿では,効率的な表現学習を可能にしつつ,正規化を自動的に保証する線形MDPの代替的定義について考察する。
いくつかのベンチマークにおいて、既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-14T18:18:02Z) - Pessimistic Off-Policy Optimization for Learning to Rank [9.197878514042227]
オフ政治学習は、ポリシーをデプロイせずに最適化するためのフレームワークである。
レコメンデーションシステムでは、ログデータの不均衡のため、これは特に難しい。
我々は、ランク付け学習のための悲観的非政治最適化について研究する。
論文 参考訳(メタデータ) (2022-06-06T12:58:28Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - Extension of Dynamic Mode Decomposition for dynamic systems with
incomplete information based on t-model of optimal prediction [69.81996031777717]
動的モード分解は、動的データを研究するための非常に効率的な手法であることが証明された。
このアプローチの適用は、利用可能なデータが不完全である場合に問題となる。
本稿では,森-Zwanzig分解の1次近似を考察し,対応する最適化問題を記述し,勾配に基づく最適化法を用いて解く。
論文 参考訳(メタデータ) (2022-02-23T11:23:59Z) - A Surrogate Objective Framework for Prediction+Optimization with Soft
Constraints [29.962390392493507]
SPO+や直接最適化のような決定に焦点をあてた予測手法が、このギャップを埋めるために提案されている。
本稿では,実世界の線形および半定値負の二次計画問題に対して,解析的に微分可能な主観的フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-22T17:09:57Z) - Bayesian Optimisation for Constrained Problems [0.0]
本稿では,制約を扱える知恵グラディエント獲得関数の新たな変種を提案する。
我々は、このアルゴリズムを、他の4つの最先端制約されたベイズ最適化アルゴリズムと比較し、その優れた性能を実証する。
論文 参考訳(メタデータ) (2021-05-27T15:43:09Z) - On the Optimality of Batch Policy Optimization Algorithms [106.89498352537682]
バッチポリシー最適化は、環境と対話する前に既存のデータをポリシー構築に活用することを検討する。
信頼調整インデックスアルゴリズムは楽観的,悲観的,中立的いずれであってもミニマックス最適であることを示す。
最適値予測の本来の難易度を考慮した新しい重み付き最小値基準を提案する。
論文 参考訳(メタデータ) (2021-04-06T05:23:20Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Is Pessimism Provably Efficient for Offline RL? [104.00628430454479]
優先度を収集したデータセットに基づいて最適なポリシーを学ぶことを目的としたオフライン強化学習(RL)について検討する。
ペナルティ関数として不確かさ量化器を組み込んだ値反復アルゴリズム(pevi)の悲観的変種を提案する。
論文 参考訳(メタデータ) (2020-12-30T09:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。