論文の概要: HOPE: Human-Centric Off-Policy Evaluation for E-Learning and Healthcare
- arxiv url: http://arxiv.org/abs/2302.09212v1
- Date: Sat, 18 Feb 2023 02:33:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 19:50:03.629396
- Title: HOPE: Human-Centric Off-Policy Evaluation for E-Learning and Healthcare
- Title(参考訳): HOPE:E-Learning and Healthcareのための人間中心のオフ・ポリシー評価
- Authors: Ge Gao, Song Ju, Markel Sanz Ausin, Min Chi
- Abstract要約: オフ政治評価は、人間中心環境における効果的な政策の誘導に不可欠である。
部分的可観測性とアグリゲート報酬を扱うための人中心型OPEを提案する。
我々のアプローチは、異なるポリシーのリターンを確実に予測し、最先端のベンチマークを上回っます。
- 参考スコア(独自算出の注目度): 15.57203496240758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has been extensively researched for enhancing
human-environment interactions in various human-centric tasks, including
e-learning and healthcare. Since deploying and evaluating policies online are
high-stakes in such tasks, off-policy evaluation (OPE) is crucial for inducing
effective policies. In human-centric environments, however, OPE is challenging
because the underlying state is often unobservable, while only aggregate
rewards can be observed (students' test scores or whether a patient is released
from the hospital eventually). In this work, we propose a human-centric OPE
(HOPE) to handle partial observability and aggregated rewards in such
environments. Specifically, we reconstruct immediate rewards from the
aggregated rewards considering partial observability to estimate expected total
returns. We provide a theoretical bound for the proposed method, and we have
conducted extensive experiments in real-world human-centric tasks, including
sepsis treatments and an intelligent tutoring system. Our approach reliably
predicts the returns of different policies and outperforms state-of-the-art
benchmarks using both standard validation methods and human-centric
significance tests.
- Abstract(参考訳): 強化学習(rl)は、eラーニングやヘルスケアなど、様々な人間中心のタスクにおける人間と環境の相互作用を強化するために広く研究されている。
オンライン政策の展開と評価はこうしたタスクにおいて高い意味を持つため、効果的な政策の誘導には、政策外評価(OPE)が不可欠である。
しかし、人間中心の環境では、OPEは、基礎となる状態はしばしば観察不可能であり、総合的な報酬しか観察できない(学生のテストスコアや患者が最終的に病院から解放されるかどうか)ため、困難である。
本研究では,このような環境において部分的可観測性と総合的な報酬を扱うための人間中心型ope(hope)を提案する。
具体的には,期待総利益を推定する部分的可観測性を考慮した総合報酬から即時報酬を再構成する。
提案手法の理論的バウンダリとして,敗血症治療や知的学習システムなど,現実世界の人間中心のタスクにおいて広範な実験を行った。
提案手法は,異なるポリシの返却を確実に予測し,標準検証法と人間中心の重要度テストの両方を用いて最先端のベンチマークを上回ります。
関連論文リスト
- MEReQ: Max-Ent Residual-Q Inverse RL for Sample-Efficient Alignment from Intervention [81.56607128684723]
本稿では,人間の介入によるサンプル効率向上を目的としたMEReQ(Maximum-Entropy Residual-Q Inverse Reinforcement Learning)を紹介する。
MereQは、人間の専門家と以前の政策の根底にある報酬関数との相違を捉える残差報酬関数を推論する。
その後、Residual Q-Learning(RQL)を使用して、ポリシーをこの残留報酬関数を使用して人間の好みと整合させる。
論文 参考訳(メタデータ) (2024-06-24T01:51:09Z) - ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。
認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。
本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性,スコーリング基準,差別化,ユーザエクスペリエンス,責任,スケーラビリティの6つの柱からなる。
論文 参考訳(メタデータ) (2024-05-28T22:45:28Z) - A Toolbox for Surfacing Health Equity Harms and Biases in Large Language Models [20.11590976578911]
大規模言語モデル(LLM)は、複雑な健康情報のニーズを満たすことを約束すると同時に、健康格差を悪化させる可能性がある。
エクイティ関連モデル失敗の信頼性評価は、ヘルスエクイティを促進するシステムを開発するための重要なステップである。
医学的問題に対するLLMによる長期的回答において、株式関連害を生じさせる可能性のあるバイアスを克服するためのリソースと方法論を提示する。
論文 参考訳(メタデータ) (2024-03-18T17:56:37Z) - Sample Complexity of Preference-Based Nonparametric Off-Policy
Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。
ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文 参考訳(メタデータ) (2023-10-16T16:27:06Z) - Off-Policy Evaluation for Human Feedback [46.82894469763776]
オフライン学習と強化学習(RL)のギャップを埋めるためには、オフ政治評価(OPE)が重要である
既存のOPE手法は、人間のフィードバック(HF)信号を推定するには不十分である。
本稿では,HF 信号の正確な評価のために,既存の OPE 手法を復元する HF 用 OPE (OPEHF) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-11T01:52:42Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Optimizing Medical Treatment for Sepsis in Intensive Care: from
Reinforcement Learning to Pre-Trial Evaluation [2.908482270923597]
本研究の目的は, 介入を最適化する強化学習(RL)が, 学習方針の治験に対する規制に適合する経路を遡及的に得る枠組みを確立することである。
我々は,死の主な原因の一つであり,複雑で不透明な患者動態のため治療が困難である集中治療室の感染症に焦点を当てた。
論文 参考訳(メタデータ) (2020-03-13T20:31:47Z) - Interpretable Off-Policy Evaluation in Reinforcement Learning by
Highlighting Influential Transitions [48.91284724066349]
強化学習におけるオフ政治評価は、医療や教育などの領域における将来の成果を改善するために観察データを使用する機会を提供する。
信頼区間のような従来の尺度は、ノイズ、限られたデータ、不確実性のために不十分である可能性がある。
我々は,人間専門家が政策評価評価評価の妥当性を分析できるように,ハイブリッドAIシステムとして機能する手法を開発した。
論文 参考訳(メタデータ) (2020-02-10T00:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。