論文の概要: On Covariate Shift of Latent Confounders in Imitation and Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2110.06539v1
- Date: Wed, 13 Oct 2021 07:31:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-14 14:03:09.281836
- Title: On Covariate Shift of Latent Confounders in Imitation and Reinforcement
Learning
- Title(参考訳): 模倣・強化学習における潜在共同創設者の共変量シフトについて
- Authors: Guy Tennenholtz, Assaf Hallak, Gal Dalal, Shie Mannor, Gal Chechik,
Uri Shalit
- Abstract要約: 模擬・強化学習において,未観測の共同設立者と専門家データを併用することの問題点を考察する。
我々は、外部報酬を伴わずに、確立した専門家データから学ぶことの限界を分析する。
我々は,支援医療とレコメンデーションシステムシミュレーションの課題に挑戦する上で,我々の主張を実証的に検証する。
- 参考スコア(独自算出の注目度): 69.48387059607387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of using expert data with unobserved confounders for
imitation and reinforcement learning. We begin by defining the problem of
learning from confounded expert data in a contextual MDP setup. We analyze the
limitations of learning from such data with and without external reward, and
propose an adjustment of standard imitation learning algorithms to fit this
setup. We then discuss the problem of distribution shift between the expert
data and the online environment when the data is only partially observable. We
prove possibility and impossibility results for imitation learning under
arbitrary distribution shift of the missing covariates. When additional
external reward is provided, we propose a sampling procedure that addresses the
unknown shift and prove convergence to an optimal solution. Finally, we
validate our claims empirically on challenging assistive healthcare and
recommender system simulation tasks.
- Abstract(参考訳): 模擬・強化学習において,未観測の共同設立者と専門家データを併用することの問題点を考察する。
まず,統合された専門家データから文脈的MDP設定で学習する問題を定義する。
このようなデータからの学習の限界を外部報酬の有無に関わらず分析し,この設定に適合する標準模倣学習アルゴリズムの調整を提案する。
次に、専門家データとオンライン環境との間の分散シフトの問題について議論する。
共変量の任意の分布シフト下での模倣学習の可能性と不可能性を示す。
追加の外部報酬が提供されると、未知のシフトに対処し、最適解への収束を証明するサンプリング手順を提案する。
最後に,支援医療とレコメンデーションシステムシミュレーションの課題に対して,我々の主張を実証的に検証する。
関連論文リスト
- Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。
我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。
提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文 参考訳(メタデータ) (2024-03-18T14:51:19Z) - A Unified Framework of Policy Learning for Contextual Bandit with
Confounding Bias and Missing Observations [108.89353070722497]
本研究では,観測データを用いた最適ポリシの獲得を目的とした,オフラインのコンテキスト的帯域幅問題について検討する。
本稿では、積分方程式系の解として報酬関数を形成するCausal-Adjusted Pessimistic(CAP)ポリシー学習という新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-20T15:17:31Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - Learning without Knowing: Unobserved Context in Continuous Transfer
Reinforcement Learning [16.814772057210366]
連続状態と行動空間における伝達強化学習問題を、観測不能な文脈情報の下で検討する。
我々のゴールは、コンテキスト認識の専門家データを使用して、学習者に最適なコンテキスト認識ポリシーを学習することである。
論文 参考訳(メタデータ) (2021-06-07T17:49:22Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - On the Sample Complexity of Adversarial Multi-Source PAC Learning [46.24794665486056]
単一ソース設定では、トレーニングデータの一定割合を破損させるパワーを持つ相手がPAC学習を防止できる。
意外なことに、マルチソース設定では、敵が任意にデータソースの固定された部分を破壊することができるため、同じことが当てはまらない。
また, 他者とのデータ共有を協調的に行うことで, 悪意のある参加者でも有益であることが示唆された。
論文 参考訳(メタデータ) (2020-02-24T17:19:04Z) - When Relation Networks meet GANs: Relation GANs with Triplet Loss [110.7572918636599]
GAN(Generative Adversarial Network)の学習安定性はいまだに悩みの種である
本稿では,判別器のための関係ネットワークアーキテクチャについて検討し,より優れた一般化と安定性を実現する三重項損失を設計する。
ベンチマークデータセットの実験により、提案された関係判別器と新たな損失は、可変視覚タスクに大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-02-24T11:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。