論文の概要: Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data
- arxiv url: http://arxiv.org/abs/2006.12311v1
- Date: Mon, 22 Jun 2020 14:49:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 05:02:45.233232
- Title: Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data
- Title(参考訳): 合同観測データを用いた効率的因果強化学習
- Authors: Lingxiao Wang, Zhuoran Yang, Zhaoran Wang
- Abstract要約: オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 135.64775986546505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Empowered by expressive function approximators such as neural networks, deep
reinforcement learning (DRL) achieves tremendous empirical successes. However,
learning expressive function approximators requires collecting a large dataset
(interventional data) by interacting with the environment. Such a lack of
sample efficiency prohibits the application of DRL to critical scenarios, e.g.,
autonomous driving and personalized medicine, since trial and error in the
online setting is often unsafe and even unethical. In this paper, we study how
to incorporate the dataset (observational data) collected offline, which is
often abundantly available in practice, to improve the sample efficiency in the
online setting. To incorporate the possibly confounded observational data, we
propose the deconfounded optimistic value iteration (DOVI) algorithm, which
incorporates the confounded observational data in a provably efficient manner.
More specifically, DOVI explicitly adjusts for the confounding bias in the
observational data, where the confounders are partially observed or unobserved.
In both cases, such adjustments allow us to construct the bonus based on a
notion of information gain, which takes into account the amount of information
acquired from the offline setting. In particular, we prove that the regret of
DOVI is smaller than the optimal regret achievable in the pure online setting
by a multiplicative factor, which decreases towards zero when the confounded
observational data are more informative upon the adjustments. Our algorithm and
analysis serve as a step towards causal reinforcement learning.
- Abstract(参考訳): ニューラルネットワークや深部強化学習(DRL)などの表現関数近似器を応用して、膨大な経験的成功を達成している。
しかし、表現関数近似器の学習には、環境と相互作用して大きなデータセット(インターベンショナルデータ)を収集する必要がある。
このようなサンプル効率の欠如は、オンライン環境での試行とエラーがしばしば安全で非倫理的であるため、自動運転やパーソナライズされた医療といった重要なシナリオへのdrlの適用を禁止している。
本稿では,オフラインで収集したデータセット(観測データ)を実際に利用できるように組み込んで,オンライン環境におけるサンプル効率を向上させる方法について検討する。
そこで本研究では, 既定観測データを効率よく組み込んだ, 分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
より具体的には、doviは、共同設立者が部分的に観察されるか、観察されない観察データにおける偏りを明示的に調整する。
いずれの場合も、このような調整により、オフライン設定から取得した情報量を考慮した情報ゲインの概念に基づいてボーナスを構築することができる。
特に,doviの後悔は純粋オンライン環境において達成可能な最善の後悔よりも乗算係数によって小さいことが証明される。
我々のアルゴリズムと分析は因果強化学習へのステップとなる。
関連論文リスト
- On Counterfactual Data Augmentation Under Confounding [30.76982059341284]
トレーニングデータのバイアスを緩和する手段として、対実データ拡張が出現している。
これらのバイアスは、データ生成プロセスにおいて観測され、観測されていない様々な共役変数によって生じる。
提案手法は,既存の最先端手法が優れた結果を得るのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2023-05-29T16:20:23Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - Causal Deep Reinforcement Learning Using Observational Data [11.790171301328158]
深部強化学習(DRL)における2つの解答法を提案する。
提案手法はまず, 因果推論法に基づいて異なる試料の重要度を算出し, 損失関数に対する異なる試料の影響を調整する。
本手法の有効性を実証し,実験的に検証する。
論文 参考訳(メタデータ) (2022-11-28T14:34:39Z) - The Challenges of Continuous Self-Supervised Learning [40.941767578622745]
自己教師付き学習(SSL)は、表現学習における主要なボトルネックの1つ、すなわち人間のアノテーションの必要性を取り除くことを目的としている。
このような連続的なセットアップに対する現在の手法の直接的な適用は、計算量と必要なデータ量の両方において非効率であることを示す。
本稿では,非効率性や時間的相関の問題を緩和する手法として,リプレイバッファの利用を提案する。
論文 参考訳(メタデータ) (2022-03-23T20:05:06Z) - The Challenges of Exploration for Offline Reinforcement Learning [8.484491887821473]
本稿では,情報的経験の収集と最適な行動の推測という,強化学習の2つのプロセスについて考察する。
データ収集のタスクに依存しない設定は、タスクが優先順位を分かっていないが、特に興味がある。
我々は、この分離されたフレームワークを使用して、探索に関する直感と効果的なオフラインRLのためのデータ前提条件を強化する。
論文 参考訳(メタデータ) (2022-01-27T23:59:56Z) - Understanding Memorization from the Perspective of Optimization via
Efficient Influence Estimation [54.899751055620904]
本研究では,実データ(実データ)とランダムラベル(ランダムデータ)のデータに対する,ターンオーバードロップアウトによる暗記現象,影響と暗記を効率的に推定する手法について検討する。
i) 実データと乱データの両方において、簡単な例(例えば、実データ)と難しい例(例えば、乱データ)の最適化は、ネットワークによって同時に行われる。
論文 参考訳(メタデータ) (2021-12-16T11:34:23Z) - On Covariate Shift of Latent Confounders in Imitation and Reinforcement
Learning [69.48387059607387]
模擬・強化学習において,未観測の共同設立者と専門家データを併用することの問題点を考察する。
我々は、外部報酬を伴わずに、確立した専門家データから学ぶことの限界を分析する。
我々は,支援医療とレコメンデーションシステムシミュレーションの課題に挑戦する上で,我々の主張を実証的に検証する。
論文 参考訳(メタデータ) (2021-10-13T07:31:31Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。