論文の概要: Counterfactual-Augmented Importance Sampling for Semi-Offline Policy
Evaluation
- arxiv url: http://arxiv.org/abs/2310.17146v1
- Date: Thu, 26 Oct 2023 04:41:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 22:14:12.199909
- Title: Counterfactual-Augmented Importance Sampling for Semi-Offline Policy
Evaluation
- Title(参考訳): 半オフライン政策評価のためのファクトファクトリファインメント・インテリジェンス・サンプリング
- Authors: Shengpu Tang, Jenna Wiens
- Abstract要約: そこで本研究では,ヒトが観測不能な反事実軌道のアノテーションを提供する半オフライン評価フレームワークを提案する。
提案手法は,アノテーション・ソリケーションの原則に基づく設計と組み合わせることで,高次の領域における強化学習の活用を可能にする。
- 参考スコア(独自算出の注目度): 13.325600043256552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In applying reinforcement learning (RL) to high-stakes domains, quantitative
and qualitative evaluation using observational data can help practitioners
understand the generalization performance of new policies. However, this type
of off-policy evaluation (OPE) is inherently limited since offline data may not
reflect the distribution shifts resulting from the application of new policies.
On the other hand, online evaluation by collecting rollouts according to the
new policy is often infeasible, as deploying new policies in these domains can
be unsafe. In this work, we propose a semi-offline evaluation framework as an
intermediate step between offline and online evaluation, where human users
provide annotations of unobserved counterfactual trajectories. While tempting
to simply augment existing data with such annotations, we show that this naive
approach can lead to biased results. Instead, we design a new family of OPE
estimators based on importance sampling (IS) and a novel weighting scheme that
incorporate counterfactual annotations without introducing additional bias. We
analyze the theoretical properties of our approach, showing its potential to
reduce both bias and variance compared to standard IS estimators. Our analyses
reveal important practical considerations for handling biased, noisy, or
missing annotations. In a series of proof-of-concept experiments involving
bandits and a healthcare-inspired simulator, we demonstrate that our approach
outperforms purely offline IS estimators and is robust to imperfect
annotations. Our framework, combined with principled human-centered design of
annotation solicitation, can enable the application of RL in high-stakes
domains.
- Abstract(参考訳): 高スループット領域に強化学習(rl)を適用する場合、観察データを用いた定量的・質的評価は、実践者が新しいポリシーの一般化性能を理解するのに役立つ。
しかしながら、オフラインデータは、新しいポリシーの適用による分散シフトを反映しない可能性があるため、このようなオフ・ポリシー評価(ope)は本質的に制限されている。
一方で、新しいポリシーに従ってロールアウトを収集したオンライン評価は、これらのドメインに新しいポリシーを配置することは安全ではないため、しばしば実現不可能である。
本研究では,オフライン評価とオンライン評価の中間段階として半オフライン評価フレームワークを提案する。
このようなアノテーションで既存のデータを単純に増やすことを誘惑する一方で、この単純なアプローチはバイアスのある結果をもたらす可能性があることを示す。
代わりに、重要サンプリング(is)に基づく新しいope推定器と、追加のバイアスを伴わずに偽のアノテーションを組み込む新しい重み付けスキームを設計する。
提案手法の理論的特性を解析し,バイアスと分散を標準is推定器と比較して低減する可能性を示した。
我々の分析は、バイアス、ノイズ、または欠落したアノテーションを扱うための重要な実践的考察を明らかにする。
バンディットと医療インスパイアされたシミュレータを含む概念実証実験では,本手法が純粋にオフラインのIS推定器より優れ,アノテーションの不完全性に強いことが実証された。
我々のフレームワークは、原則的人間中心のアノテーションソリケーション設計と組み合わせることで、RLを高い領域に適用することができる。
関連論文リスト
- Is user feedback always informative? Retrieval Latent Defending for Semi-Supervised Domain Adaptation without Source Data [34.55109747972333]
本稿では,現実のアプリケーションで容易に利用できるユーザフィードバックを用いて,ソースモデルをターゲット環境に適用することを目的とする。
負バイアスフィードバック(NBF)と呼ばれる新しい概念を用いて、この現象を解析する。
スケーラブルな適応アプローチであるRetrieval Latent Defendingを提案する。
論文 参考訳(メタデータ) (2024-07-22T05:15:41Z) - Towards Evaluating Transfer-based Attacks Systematically, Practically,
and Fairly [79.07074710460012]
ディープニューラルネットワーク(DNN)の敵対的脆弱性に大きな注目を集めている。
ブラックボックスDNNモデルを騙すための転送ベース手法が増えている。
30以上のメソッドを実装した転送ベースアタックベンチマーク(TA-Bench)を確立する。
論文 参考訳(メタデータ) (2023-11-02T15:35:58Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Asymptotically Unbiased Off-Policy Policy Evaluation when Reusing Old
Data in Nonstationary Environments [31.492146288630515]
回帰支援DR推定器(Regressive-Assisted DR estimator)と呼ばれる2重頑健(DR)推定器の変種を導入し、大きなバイアスを伴わずに過去のデータを組み込むことができる。
本研究では,新しい推定器が現在および将来の政策値の推定を改善することを実証的に示し,複数の非定常的推薦環境において厳密かつ有効な区間推定を提供する。
論文 参考訳(メタデータ) (2023-02-23T01:17:21Z) - Off-policy evaluation for learning-to-rank via interpolating the
item-position model and the position-based model [83.83064559894989]
産業レコメンデーションシステムにとって重要なニーズは、製品にデプロイする前に、レコメンデーションポリシーをオフラインで評価する機能である。
我々は、最も人気のある2つの非政治推定器の問題を緩和する新しい推定器を開発する。
特に、InterPOLと呼ばれる新しい推定器は、潜在的に不特定位置ベースモデルのバイアスに対処する。
論文 参考訳(メタデータ) (2022-10-15T17:22:30Z) - Off-Policy Evaluation for Large Action Spaces via Embeddings [36.42838320396534]
文脈的包帯におけるオフ政治評価(OPE)は、現実世界のシステムで急速に採用されている。
既存のOPE推定器は、アクションの数が大きいと著しく劣化する。
我々は,アクション埋め込みがアクション空間の構造を提供する際に,余分な重み付けを生かした新しいOPE推定器を提案する。
論文 参考訳(メタデータ) (2022-02-13T14:00:09Z) - Unifying Gradient Estimators for Meta-Reinforcement Learning via
Off-Policy Evaluation [53.83642844626703]
オフ・ポリシー評価に基づいて,高次値関数の高次微分を推定するための統一フレームワークを提供する。
本フレームワークは, ヘッセン推定の偏りと分散トレードオフを解明する特別事例として, 多くの先行的アプローチを解釈する。
論文 参考訳(メタデータ) (2021-06-24T15:58:01Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。