論文の概要: When is Off-Policy Evaluation (Reward Modeling) Useful in Contextual Bandits? A Data-Centric Perspective
- arxiv url: http://arxiv.org/abs/2311.14110v2
- Date: Mon, 28 Oct 2024 18:52:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:37:53.884133
- Title: When is Off-Policy Evaluation (Reward Modeling) Useful in Contextual Bandits? A Data-Centric Perspective
- Title(参考訳): 文脈帯域におけるオフ・ポリティ・アセスメント(リワード・モデリング)はいつ有効か : データ中心の視点
- Authors: Hao Sun, Alex J. Chan, Nabeel Seedat, Alihan Hüyük, Mihaela van der Schaar,
- Abstract要約: ログ化されたデータセットだけで仮説的ターゲットポリシーの価値を評価することは重要だが、難しい。
データ中心のフレームワークであるDataCOPEを提案する。
医療データセットを用いたログ化された文脈的帯域設定におけるDataCOPEの実証分析により、機械学習と人間の専門家ポリシーの両方を評価する能力が確認された。
- 参考スコア(独自算出の注目度): 64.73162159837956
- License:
- Abstract: Evaluating the value of a hypothetical target policy with only a logged dataset is important but challenging. On the one hand, it brings opportunities for safe policy improvement under high-stakes scenarios like clinical guidelines. On the other hand, such opportunities raise a need for precise off-policy evaluation (OPE). While previous work on OPE focused on improving the algorithm in value estimation, in this work, we emphasize the importance of the offline dataset, hence putting forward a data-centric framework for evaluating OPE problems. We propose DataCOPE, a data-centric framework for evaluating OPE, that answers the questions of whether and to what extent we can evaluate a target policy given a dataset. DataCOPE (1) forecasts the overall performance of OPE algorithms without access to the environment, which is especially useful before real-world deployment where evaluating OPE is impossible; (2) identifies the sub-group in the dataset where OPE can be inaccurate; (3) permits evaluations of datasets or data-collection strategies for OPE problems. Our empirical analysis of DataCOPE in the logged contextual bandit settings using healthcare datasets confirms its ability to evaluate both machine-learning and human expert policies like clinical guidelines. Finally, we apply DataCOPE to the task of reward modeling in Large Language Model alignment to demonstrate its scalability in real-world applications.
- Abstract(参考訳): ログ化されたデータセットだけで仮説的ターゲットポリシーの価値を評価することは重要だが、難しい。
同時に、臨床ガイドラインのような高度なシナリオの下で、安全な政策改善の機会ももたらします。
一方、このような機会は、正確な非政治評価(OPE)の必要性を高める。
OPEに関する以前の研究は、価値推定におけるアルゴリズムの改善に重点を置いていたが、この研究ではオフラインデータセットの重要性を強調し、OPE問題を評価するためのデータ中心のフレームワークを推進した。
OPEを評価するためのデータ中心フレームワークであるDataCOPEを提案する。
データCOPE(1)は,OPE評価が不可能な実世界展開前において特に有用である環境へのアクセスのないOPEアルゴリズム全体の性能を予測し,(2)OPEが不正確であるデータセット内のサブグループを特定し,(3)OPE問題に対するデータセットの評価やデータ収集戦略を許可する。
医療データセットを用いたログ化された文脈的帯域設定におけるDataCOPEの実証分析により、臨床ガイドラインのような機械学習と人的専門家のポリシーを評価する能力が確認された。
最後に、大規模言語モデルアライメントにおける報酬モデリングのタスクにDataCOPEを適用し、実世界のアプリケーションでそのスケーラビリティを実証する。
関連論文リスト
- AutoOPE: Automated Off-Policy Estimator Selection [7.476028372444458]
オフ・ポリティィ・アセスメントの問題は、相手が収集したデータを用いて、カウンターファクト・ポリシーのパフォーマンスを評価することである。
機械学習に基づく自動データ駆動型OPE推定器選択法を提案する。
論文 参考訳(メタデータ) (2024-06-26T02:34:48Z) - OPERA: Automatic Offline Policy Evaluation with Re-weighted Aggregates of Multiple Estimators [13.408838970377035]
オフライン政策評価(OPE)により、新たなシーケンシャルな意思決定方針のパフォーマンスを評価し、見積もることができる。
統計的手法を用いた明示的な選択に頼ることなく,データセットに与えられたOPE推定器の集合を適応的にブレンドするアルゴリズムを提案する。
我々の研究は、オフラインRLのための汎用的、推定対象に依存しない、非政治評価フレームワークの使いやすさの向上に寄与する。
論文 参考訳(メタデータ) (2024-05-27T23:51:20Z) - Sample Complexity of Preference-Based Nonparametric Off-Policy
Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。
ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文 参考訳(メタデータ) (2023-10-16T16:27:06Z) - Policy-Adaptive Estimator Selection for Off-Policy Evaluation [12.1655494876088]
Off-policy Evaluation (OPE) は、オフラインログデータのみを使用して、カウンターファクトポリシーの性能を正確に評価することを目的としている。
本稿では,OPEにおける推定器選択の課題を初めて考察する。
特に、利用可能なログデータを適切にサブサンプリングし、擬似ポリシーを構築することにより、与えられたOPEタスクに適応する推定子選択を可能にする。
論文 参考訳(メタデータ) (2022-11-25T05:31:42Z) - Reinforcement Learning with Heterogeneous Data: Estimation and Inference [84.72174994749305]
人口の不均一性に関する逐次的決定問題に対処するために,K-ヘテロ・マルコフ決定過程(K-ヘテロ・MDP)を導入する。
本稿では、ある政策の価値を推定するための自己クラスタ化政策評価(ACPE)と、ある政策クラスにおける最適な政策を推定するための自己クラスタ化政策イテレーション(ACPI)を提案する。
理論的な知見を裏付けるシミュレーションを行い,MIMIC-III標準データセットの実証的研究を行った。
論文 参考訳(メタデータ) (2022-01-31T20:58:47Z) - Robust On-Policy Data Collection for Data-Efficient Policy Evaluation [7.745028845389033]
政策評価では、関心のある環境に対する評価政策の期待したリターンを見積もる。
我々は、潜在的に大きなオフラインRLデータセットと組み合わせるために、少量の追加データを収集できる設定を検討します。
この設定では、単に評価ポリシ -- オンラインデータ収集 -- を実行することが、サブ最適であることを示します。
論文 参考訳(メタデータ) (2021-11-29T14:30:26Z) - Benchmarks for Deep Off-Policy Evaluation [152.28569758144022]
我々は,政策外の評価のベンチマークに使用できるポリシーの集合を提案する。
私たちのベンチマークの目標は、一連の原則から動機付けられた進歩の標準化された尺度を提供することです。
この領域における今後の研究を促進するために、当社のデータとコードに対するオープンソースアクセスを提供しています。
論文 参考訳(メタデータ) (2021-03-30T18:09:33Z) - A Revised Generative Evaluation of Visual Dialogue [80.17353102854405]
本稿では,VisDialデータセットの改訂評価手法を提案する。
モデルが生成した回答と関連する回答の集合のコンセンサスを測定する。
DenseVisDialとして改訂された評価スキームのこれらのセットとコードをリリースする。
論文 参考訳(メタデータ) (2020-04-20T13:26:45Z) - Interpretable Off-Policy Evaluation in Reinforcement Learning by
Highlighting Influential Transitions [48.91284724066349]
強化学習におけるオフ政治評価は、医療や教育などの領域における将来の成果を改善するために観察データを使用する機会を提供する。
信頼区間のような従来の尺度は、ノイズ、限られたデータ、不確実性のために不十分である可能性がある。
我々は,人間専門家が政策評価評価評価の妥当性を分析できるように,ハイブリッドAIシステムとして機能する手法を開発した。
論文 参考訳(メタデータ) (2020-02-10T00:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。