論文の概要: Stateful Offline Contextual Policy Evaluation and Learning
- arxiv url: http://arxiv.org/abs/2110.10081v1
- Date: Tue, 19 Oct 2021 16:15:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 14:01:58.554079
- Title: Stateful Offline Contextual Policy Evaluation and Learning
- Title(参考訳): ステートフルオフライン環境政策評価と学習
- Authors: Nathan Kallus, Angela Zhou
- Abstract要約: 我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。
動的パーソナライズされた価格設定などの問題の因果構造を形式化する。
本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
- 参考スコア(独自算出の注目度): 88.9134799076718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study off-policy evaluation and learning from sequential data in a
structured class of Markov decision processes that arise from repeated
interactions with an exogenous sequence of arrivals with contexts, which
generate unknown individual-level responses to agent actions. This model can be
thought of as an offline generalization of contextual bandits with resource
constraints. We formalize the relevant causal structure of problems such as
dynamic personalized pricing and other operations management problems in the
presence of potentially high-dimensional user types. The key insight is that an
individual-level response is often not causally affected by the state variable
and can therefore easily be generalized across timesteps and states. When this
is true, we study implications for (doubly robust) off-policy evaluation and
learning by instead leveraging single time-step evaluation, estimating the
expectation over a single arrival via data from a population, for fitted-value
iteration in a marginal MDP. We study sample complexity and analyze error
amplification that leads to the persistence, rather than attenuation, of
confounding error over time. In simulations of dynamic and capacitated pricing,
we show improved out-of-sample policy performance in this class of relevant
problems.
- Abstract(参考訳): エージェント行動に対する未知の個人レベルの応答を発生させる,コンテキストとの出現列との反復的な相互作用から生じるマルコフ決定過程の構造化クラスにおいて,オフ・ポリシー評価と逐次データからの学習について検討した。
このモデルは、リソース制約を伴うコンテキストバンディットのオフラインの一般化と考えることができる。
動的なパーソナライズ価格や運用管理の問題といった問題の関連する因果構造を,高次元ユーザ型の存在下で定式化する。
重要な洞察は、個々のレベルの応答は状態変数に因果的に影響されず、したがって時間ステップや状態間で容易に一般化できるということである。
このことが真実であれば,単一の時間ステップ評価を活用し,集団からのデータによる1回の到着に対する期待値を推定し,限界mdpにおける適合価値反復を行うことで,オフ・ポリシー評価と学習の意義について検討する。
我々はサンプルの複雑さを調査し、時間とともにエラーを結合する永続性に繋がるエラー増幅を分析する。
動的および静電容量化価格のシミュレーションでは,本クラスにおける外部ポリシー性能の改善が示された。
関連論文リスト
- On the Identification of Temporally Causal Representation with Instantaneous Dependence [50.14432597910128]
時間的因果表現学習は時系列観測から潜在因果過程を特定することを目的としている。
ほとんどの方法は、潜在因果過程が即時関係を持たないという仮定を必要とする。
我々は,インスタントtextbfOus textbfLatent dynamics のための textbfIDentification フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-24T08:08:05Z) - Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。
我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。
提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文 参考訳(メタデータ) (2024-03-18T14:51:19Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Multi-level Adaptive Contrastive Learning for Knowledge Internalization
in Dialogue Generation [37.55417272177113]
知識基底対話生成は、文脈を補うために外部知識を統合することを目的としている。
しかし、このモデルはしばしば、この情報を人間的な方法で応答に内部化するのに失敗する。
否定例を動的にサンプリングし,その後に退化挙動をペナルティ化する多段階適応コントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-13T08:16:27Z) - Conditional Kernel Imitation Learning for Continuous State Environments [9.750698192309978]
条件付きカーネル密度推定に基づく新しい模倣学習フレームワークを提案する。
我々は、多くの最先端ILアルゴリズムよりも一貫して優れた経験的性能を示す。
論文 参考訳(メタデータ) (2023-08-24T05:26:42Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Robust Fitted-Q-Evaluation and Iteration under Sequentially Exogenous
Unobserved Confounders [16.193776814471768]
連続的に外生的でない共同設立者が存在する場合、ロバストな政策評価と政策最適化について検討する。
本研究は,敗血症治療のシミュレーションと実世界の縦断医療データの両方において,複雑性境界,洞察,有効性を示す。
論文 参考訳(メタデータ) (2023-02-01T18:40:53Z) - Model-Free and Model-Based Policy Evaluation when Causality is Uncertain [7.858296711223292]
政治外の評価では、力学に影響を及ぼし、未知の行動ポリシーによって使用される観測されていない変数が存在する可能性がある。
我々は、これらの観測されていない共同設立者に対する感度を有限の地平線で評価するために、最悪のケース境界を開発する。
頑健なMDPを持つモデルベースアプローチは、動的にドメイン知識を活用することにより、よりシャープな下位境界を与えることを示す。
論文 参考訳(メタデータ) (2022-04-02T23:40:15Z) - Learning from Heterogeneous Data Based on Social Interactions over
Graphs [58.34060409467834]
本研究では,個別のエージェントが異なる次元のストリーミング特徴を観察しながら分類問題の解決を目指す分散アーキテクチャを提案する。
私たちはそれを示します。
戦略により、エージェントはこの高度に異質な環境下で一貫して学習することができる。
私たちはそれを示します。
戦略により、エージェントはこの高度に異質な環境下で一貫して学習することができる。
論文 参考訳(メタデータ) (2021-12-17T12:47:18Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。