論文の概要: Semi-Supervised Off Policy Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2012.04809v5
- Date: Tue, 23 Feb 2021 02:35:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 15:21:31.787652
- Title: Semi-Supervised Off Policy Reinforcement Learning
- Title(参考訳): 政策強化学習の半監督
- Authors: Aaron Sonabend-W, Nilanjana Laha, Ashwin N. Ananthakrishnan, Tianxi
Cai, Rajarshi Mukherjee
- Abstract要約: 健康状態の情報はよくコード化されておらず、臨床記録に埋め込まれることが多い。
そこで本研究では,実測結果を持つ小さなラベル付きデータを効率よく活用する半教師付き学習(SSL)手法と,結果サロゲートを持つ大規模ラベル付きデータを提案する。
提案手法は,少なくとも教師付きアプローチと同じくらい効率的であり,またインプテーションモデルの誤特定にも頑健である。
- 参考スコア(独自算出の注目度): 3.48396189165489
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has shown great success in estimating sequential
treatment strategies which take into account patient heterogeneity. However,
health-outcome information, which is used as the reward for reinforcement
learning methods, is often not well coded but rather embedded in clinical
notes. Extracting precise outcome information is a resource intensive task, so
most of the available well-annotated cohorts are small. To address this issue,
we propose a semi-supervised learning (SSL) approach that efficiently leverages
a small sized labeled data with true outcome observed, and a large unlabeled
data with outcome surrogates. In particular, we propose a semi-supervised,
efficient approach to Q-learning and doubly robust off policy value estimation.
Generalizing SSL to sequential treatment regimes brings interesting challenges:
1) Feature distribution for Q-learning is unknown as it includes previous
outcomes. 2) The surrogate variables we leverage in the modified SSL framework
are predictive of the outcome but not informative to the optimal policy or
value function. We provide theoretical results for our Q-function and value
function estimators to understand to what degree efficiency can be gained from
SSL. Our method is at least as efficient as the supervised approach, and
moreover safe as it robust to mis-specification of the imputation models.
- Abstract(参考訳): 強化学習 (rl) は, 患者の不均一性を考慮した逐次的治療戦略を推定することに成功した。
しかし、強化学習の報奨として用いられる健康情報はしばしばよくコード化されておらず、むしろ臨床ノートに埋め込まれている。
正確な結果情報を抽出することは資源集約的な作業であり、利用可能な注釈付きコホートのほとんどは小さい。
この問題に対処するために,実測結果を持つ小さなラベル付きデータを効率よく活用する半教師付き学習(SSL)手法と,結果サロゲートを持つ大規模ラベル付きデータを提案する。
特に,Q-ラーニングに対する半教師付き,効率的なアプローチを提案する。
SSLをシーケンシャルな治療体制に一般化することは、次のような興味深い課題をもたらす。
2)修正SSLフレームワークで活用する代用変数は、結果を予測するが、最適ポリシーや値関数には影響しない。
Q関数と値関数推定器の理論的結果を提供し、SSLからどれだけの効率が得られるかを理解する。
提案手法は,少なくとも教師付きアプローチと同じくらい効率的であり,またインプテーションモデルの誤特定にも頑健である。
関連論文リスト
- Sample Complexity of Preference-Based Nonparametric Off-Policy
Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。
ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文 参考訳(メタデータ) (2023-10-16T16:27:06Z) - Pruning the Way to Reliable Policies: A Multi-Objective Deep Q-Learning
Approach to Critical Care [68.8204255655161]
我々は、より信頼性の高いクリティカルケアポリシーを得ることができる深いQ-ラーニングアプローチを導入する。
まず、利用可能なすべての報酬に基づいてアクションセットを抽出し、次に、スパース主報酬に基づいて最終モデルを訓練し、制限されたアクションセットで達成する。
論文 参考訳(メタデータ) (2023-06-13T18:02:57Z) - Offline Reinforcement Learning with Additional Covering Distributions [0.0]
我々は,関数近似を用いて,ログ化されたデータセット,すなわちオフラインRLから最適ポリシーを学習する。
一般のMDPに対するサンプル効率のよいオフラインRLは、部分的カバレッジデータセットと弱い実現可能な関数クラスだけで実現可能であることを示す。
論文 参考訳(メタデータ) (2023-05-22T03:31:03Z) - Uncertainty Estimation by Fisher Information-based Evidential Deep
Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。
漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。
特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文 参考訳(メタデータ) (2023-03-03T16:12:59Z) - Consistency-Based Semi-supervised Evidential Active Learning for
Diagnostic Radiograph Classification [2.3545156585418328]
CSEAL(Consistency-based Semi-supervised Evidential Active Learning)フレームワークについて紹介する。
我々は、証拠理論と主観的論理に基づく予測の不確実性を利用して、エンドツーエンドの統合アプローチを開発する。
本手法は, ラベル付きサンプルを少なくして, より稀な異常の精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-09-05T09:28:31Z) - CCLF: A Contrastive-Curiosity-Driven Learning Framework for
Sample-Efficient Reinforcement Learning [56.20123080771364]
我々は、強化学習のためのモデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発した。
CCLFは、サンプルの重要性を完全に活用し、自己管理的な学習効率を向上させる。
このアプローチをDeepMind Control Suite、Atari、MiniGridベンチマークで評価する。
論文 参考訳(メタデータ) (2022-05-02T14:42:05Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Trash to Treasure: Harvesting OOD Data with Cross-Modal Matching for
Open-Set Semi-Supervised Learning [101.28281124670647]
オープンセット半教師付き学習(Open-set SSL)では、ラベルなしデータにOOD(Out-of-distribution)サンプルを含む、難しいが実用的なシナリオを調査する。
我々は、OODデータの存在を効果的に活用し、特徴学習を増強する新しいトレーニングメカニズムを提案する。
我々のアプローチは、オープンセットSSLのパフォーマンスを大幅に向上させ、最先端技術よりも大きなマージンで性能を向上します。
論文 参考訳(メタデータ) (2021-08-12T09:14:44Z) - Active Deep Learning on Entity Resolution by Risk Sampling [5.219701379581547]
アクティブラーニング(al)は、モデルトレーニングに有用なデータに焦点を当てた、実現可能なソリューションである。
実体解決のためのリスクサンプリング(ER)の新たなALアプローチを提案する。
ALのコアセット特性に基づいて、非一様連続性によるコアセット損失を最小限に抑える最適化モデルを理論的に導出する。
実データに対する提案手法の有効性を比較検討により実証的に検証した。
論文 参考訳(メタデータ) (2020-12-23T20:38:25Z) - Aggregative Self-Supervised Feature Learning from a Limited Sample [12.555160911451688]
自己教師付き学習特徴の頑健性を高めるために,様々な形態の相補性の観点から2つのアグリゲーション戦略を提案する。
限られたデータシナリオ下での2次元自然画像および3次元医用画像分類タスクの実験により,提案手法が分類精度を向上できることが確認された。
論文 参考訳(メタデータ) (2020-12-14T12:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。