論文の概要: Semi-Supervised Off Policy Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2012.04809v5
- Date: Tue, 23 Feb 2021 02:35:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 15:21:31.787652
- Title: Semi-Supervised Off Policy Reinforcement Learning
- Title(参考訳): 政策強化学習の半監督
- Authors: Aaron Sonabend-W, Nilanjana Laha, Ashwin N. Ananthakrishnan, Tianxi
Cai, Rajarshi Mukherjee
- Abstract要約: 健康状態の情報はよくコード化されておらず、臨床記録に埋め込まれることが多い。
そこで本研究では,実測結果を持つ小さなラベル付きデータを効率よく活用する半教師付き学習(SSL)手法と,結果サロゲートを持つ大規模ラベル付きデータを提案する。
提案手法は,少なくとも教師付きアプローチと同じくらい効率的であり,またインプテーションモデルの誤特定にも頑健である。
- 参考スコア(独自算出の注目度): 3.48396189165489
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has shown great success in estimating sequential
treatment strategies which take into account patient heterogeneity. However,
health-outcome information, which is used as the reward for reinforcement
learning methods, is often not well coded but rather embedded in clinical
notes. Extracting precise outcome information is a resource intensive task, so
most of the available well-annotated cohorts are small. To address this issue,
we propose a semi-supervised learning (SSL) approach that efficiently leverages
a small sized labeled data with true outcome observed, and a large unlabeled
data with outcome surrogates. In particular, we propose a semi-supervised,
efficient approach to Q-learning and doubly robust off policy value estimation.
Generalizing SSL to sequential treatment regimes brings interesting challenges:
1) Feature distribution for Q-learning is unknown as it includes previous
outcomes. 2) The surrogate variables we leverage in the modified SSL framework
are predictive of the outcome but not informative to the optimal policy or
value function. We provide theoretical results for our Q-function and value
function estimators to understand to what degree efficiency can be gained from
SSL. Our method is at least as efficient as the supervised approach, and
moreover safe as it robust to mis-specification of the imputation models.
- Abstract(参考訳): 強化学習 (rl) は, 患者の不均一性を考慮した逐次的治療戦略を推定することに成功した。
しかし、強化学習の報奨として用いられる健康情報はしばしばよくコード化されておらず、むしろ臨床ノートに埋め込まれている。
正確な結果情報を抽出することは資源集約的な作業であり、利用可能な注釈付きコホートのほとんどは小さい。
この問題に対処するために,実測結果を持つ小さなラベル付きデータを効率よく活用する半教師付き学習(SSL)手法と,結果サロゲートを持つ大規模ラベル付きデータを提案する。
特に,Q-ラーニングに対する半教師付き,効率的なアプローチを提案する。
SSLをシーケンシャルな治療体制に一般化することは、次のような興味深い課題をもたらす。
2)修正SSLフレームワークで活用する代用変数は、結果を予測するが、最適ポリシーや値関数には影響しない。
Q関数と値関数推定器の理論的結果を提供し、SSLからどれだけの効率が得られるかを理解する。
提案手法は,少なくとも教師付きアプローチと同じくらい効率的であり,またインプテーションモデルの誤特定にも頑健である。
関連論文リスト
- Multi-Agent Reinforcement Learning from Human Feedback: Data Coverage and Algorithmic Techniques [65.55451717632317]
我々は,MARLHF(Multi-Agent Reinforcement Learning from Human Feedback)について検討し,理論的基礎と実証的検証の両方について検討した。
我々は,このタスクを,一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ均衡を識別するものとして定義する。
本研究は,MARLHFの多面的アプローチを基礎として,効果的な嗜好に基づくマルチエージェントシステムの実現を目指している。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - Protecting Privacy Through Approximating Optimal Parameters for Sequence Unlearning in Language Models [37.172662930947446]
言語モデル(LM)は、重大なプライバシーリスクを示す抽出攻撃に対して潜在的に脆弱である。
本稿では,事前学習したLMからターゲットトークンシーケンスを効果的に忘れる新しい未学習手法である,最適パラメータによるプライバシ保護(POP)を提案する。
POPは、9つの分類と4つのダイアログベンチマークにまたがって、保留後の顕著なパフォーマンスを示し、最先端を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2024-06-20T08:12:49Z) - Reinforcement Learning-Guided Semi-Supervised Learning [20.599506122857328]
本稿では,SSLを片腕バンディット問題として定式化する新しい強化学習ガイド型SSL手法 RLGSSL を提案する。
RLGSSLは、ラベル付きデータとラベルなしデータのバランスを保ち、一般化性能を向上させるために、慎重に設計された報酬関数を組み込んでいる。
我々は,複数のベンチマークデータセットに対する広範な実験を通じてRCGSSLの有効性を実証し,我々の手法が最先端のSSL手法と比較して一貫した優れた性能を実現することを示す。
論文 参考訳(メタデータ) (2024-05-02T21:52:24Z) - A Channel-ensemble Approach: Unbiased and Low-variance Pseudo-labels is Critical for Semi-supervised Classification [61.473485511491795]
半教師付き学習(SSL)はコンピュータビジョンにおける実践的な課題である。
Pseudo-label (PL) メソッド、例えば FixMatch や FreeMatch は SSL で State of The Art (SOTA) のパフォーマンスを取得する。
本稿では,複数の下位PLを理論的に保証された非偏りと低分散のPLに集約する,軽量なチャネルベースアンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-03-27T09:49:37Z) - Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。
我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。
提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文 参考訳(メタデータ) (2024-03-18T14:51:19Z) - Sample Complexity of Preference-Based Nonparametric Off-Policy
Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。
ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文 参考訳(メタデータ) (2023-10-16T16:27:06Z) - Pruning the Way to Reliable Policies: A Multi-Objective Deep Q-Learning Approach to Critical Care [46.2482873419289]
我々は、より信頼性の高いクリティカルケアポリシーを得るための深いQ-ラーニングアプローチを導入する。
本手法を,集中治療室のシミュレーション環境と実際の健康記録を用いて,オフライン・オフ・セッティングで評価した。
論文 参考訳(メタデータ) (2023-06-13T18:02:57Z) - Uncertainty Estimation by Fisher Information-based Evidential Deep
Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。
漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。
特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文 参考訳(メタデータ) (2023-03-03T16:12:59Z) - CCLF: A Contrastive-Curiosity-Driven Learning Framework for
Sample-Efficient Reinforcement Learning [56.20123080771364]
我々は、強化学習のためのモデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発した。
CCLFは、サンプルの重要性を完全に活用し、自己管理的な学習効率を向上させる。
このアプローチをDeepMind Control Suite、Atari、MiniGridベンチマークで評価する。
論文 参考訳(メタデータ) (2022-05-02T14:42:05Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Active Deep Learning on Entity Resolution by Risk Sampling [5.219701379581547]
アクティブラーニング(al)は、モデルトレーニングに有用なデータに焦点を当てた、実現可能なソリューションである。
実体解決のためのリスクサンプリング(ER)の新たなALアプローチを提案する。
ALのコアセット特性に基づいて、非一様連続性によるコアセット損失を最小限に抑える最適化モデルを理論的に導出する。
実データに対する提案手法の有効性を比較検討により実証的に検証した。
論文 参考訳(メタデータ) (2020-12-23T20:38:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。