論文の概要: Off-Policy Evaluation in Embedded Spaces
- arxiv url: http://arxiv.org/abs/2203.02807v1
- Date: Sat, 5 Mar 2022 19:21:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 17:09:19.685917
- Title: Off-Policy Evaluation in Embedded Spaces
- Title(参考訳): 埋設空間におけるオフポリティ評価
- Authors: Jaron J. R. Lee, David Arbour, Georgios Theocharous
- Abstract要約: 政策外評価手法は,レコメンデーションシステムや検索エンジンにおいて重要である。
古いロギングポリシーの下で収集されたデータは、新しいターゲットポリシーのパフォーマンスを予測するために使用される。
現在の方法は、ログポリシーの確率がゼロでない場合にのみ、アイテムを推奨するターゲットポリシーの確率がゼロでないことを要求している。
埋め込み空間でコンテキストやアクションを表現することで、以前は見つからなかったアクションやコンテキストの振る舞いを外挿する情報を共有することができます。
- 参考スコア(独自算出の注目度): 16.11370588009153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy evaluation methods are important in recommendation systems and
search engines, whereby data collected under an old logging policy is used to
predict the performance of a new target policy. However, in practice most
systems are not observed to recommend most of the possible actions, which is an
issue since existing methods require that the probability of the target policy
recommending an item can only be non-zero when the probability of the logging
policy is non-zero (known as absolute continuity). To circumvent this issue, we
explore the use of action embeddings. By representing contexts and actions in
an embedding space, we are able to share information to extrapolate behaviors
for actions and contexts previously unseen.
- Abstract(参考訳): 提案手法は推薦システムや検索エンジンにおいて重要であり、古いロギングポリシーの下で収集されたデータは、新しいターゲットポリシーの性能を予測するために使用される。
しかし、実際にはほとんどのシステムは、可能なアクションのほとんどを推奨することができない。これは、既存の手法では、ログポリシーの確率がゼロでない場合(絶対連続性と呼ばれる)、アイテムを推奨するターゲットポリシーの確率はゼロでないことが要求されるためである。
この問題を回避するために,アクション埋め込みの利用について検討する。
コンテキストとアクションを埋め込み空間で表現することで、以前目にしたことのないアクションやコンテキストの振る舞いを外挿するための情報を共有できます。
関連論文リスト
- SaVeR: Optimal Data Collection Strategy for Safe Policy Evaluation in Tabular MDP [9.71834921109414]
表型マルコフ決定過程(MDP)における政策評価を目的とした安全なデータ収集について検討する。
まず、問題パラメータに関する知識を持つ安全なオラクルアルゴリズムが、データを効率よく収集し、安全性の制約を満たすような、難解なMDPのクラスが存在することを示す。
次に、この問題に対するアルゴリズムSaVeRを導入し、安全オラクルアルゴリズムを近似し、アルゴリズムの有限サンプル平均二乗誤差を拘束し、安全性の制約を満たすことを保証する。
論文 参考訳(メタデータ) (2024-06-04T09:54:55Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Local Policy Improvement for Recommender Systems [8.617221361305901]
我々は、以前デプロイされたポリシーから収集されたデータをもとに、新しいポリシーをトレーニングする方法を示す。
我々は,地方政策改善の代替策として,非政治的是正を伴わないアプローチを提案する。
この局所的な政策改善パラダイムはレコメンデーションシステムに理想的であり、以前の方針は一般的に適切な品質であり、ポリシーは頻繁に更新される。
論文 参考訳(メタデータ) (2022-12-22T00:47:40Z) - Conformal Off-Policy Prediction in Contextual Bandits [54.67508891852636]
コンフォーマルなオフ政治予測は、新しい目標ポリシーの下で、結果に対する信頼できる予測間隔を出力することができる。
理論上の有限サンプル保証は、標準的な文脈的バンディットの設定を超える追加の仮定をすることなく提供する。
論文 参考訳(メタデータ) (2022-06-09T10:39:33Z) - Safe Policy Learning through Extrapolation: Application to Pre-trial
Risk Assessment [0.0]
我々は,政策の期待された効用を部分的に識別する頑健な最適化手法を開発し,その上で最適な政策を見出す。
このアプローチを、アルゴリズムレコメンデーションの助けを借りて人間が決定する、一般的で重要な設定にまで拡張する。
我々は,既存のリスク評価機器の透明性と解釈可能性を維持する新たな分類・勧告ルールを導出する。
論文 参考訳(メタデータ) (2021-09-22T00:52:03Z) - Supervised Off-Policy Ranking [145.3039527243585]
オフポリシー評価(OPE)は、他のポリシーによって生成されたデータを活用して、ターゲットポリシーを評価する。
本稿では,訓練方針と既知の実績を正しくランク付けすることで,政策スコアリングモデルを学習する教師付き非政治ランキングを提案する。
本手法は,上位3つのポリシーのうち,最良と最良の双方のランク相関と性能差の両面から,強力なベースラインOPE法より優れる。
論文 参考訳(メタデータ) (2021-07-03T07:01:23Z) - A Practical Guide of Off-Policy Evaluation for Bandit Problems [13.607327477092877]
オフ政治評価(OPE)とは、異なる政策によって得られたサンプルから対象政策の価値を推定する問題である。
既存のOPE推定器に基づくメタアルゴリズムを提案する。
実験において,人工的およびオープンな実世界のデータセットを用いて提案する概念について検討する。
論文 参考訳(メタデータ) (2020-10-23T15:11:19Z) - Distributionally Robust Batch Contextual Bandits [20.667213458836734]
歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。
既存の文献は、学習方針が展開される将来の環境が過去の環境と同じである、という決定的な前提に基づいている。
本稿では、この仮定を引き上げ、不完全な観測データを用いて、分布的に堅牢なポリシーを学習することを目的とする。
論文 参考訳(メタデータ) (2020-06-10T03:11:40Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Policy Evaluation Networks [50.53250641051648]
我々は,簡潔な埋め込みにおいて重要なポリシー情報を保持できる,スケーラブルで差別化可能なフィンガープリント機構を導入する。
実験の結果、これらの3つの要素を組み合わせることで、トレーニングデータを生成するものよりも優れたポリシーを作成できることが示された。
論文 参考訳(メタデータ) (2020-02-26T23:00:27Z) - Efficient Policy Learning from Surrogate-Loss Classification Reductions [65.91730154730905]
本稿では,政策学習におけるサロゲート-ロス分類の重み付けによる推定問題について考察する。
適切な仕様の仮定の下では、重み付けされた分類定式化はポリシーパラメーターに対して効率的でないことが示される。
本稿では,ポリシーパラメータに対して効率的なモーメントの一般化手法に基づく推定手法を提案する。
論文 参考訳(メタデータ) (2020-02-12T18:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。