論文の概要: Can Active Sampling Reduce Causal Confusion in Offline Reinforcement
Learning?
- arxiv url: http://arxiv.org/abs/2312.17168v1
- Date: Thu, 28 Dec 2023 17:54:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 15:21:22.088116
- Title: Can Active Sampling Reduce Causal Confusion in Offline Reinforcement
Learning?
- Title(参考訳): オフライン強化学習においてアクティブサンプリングは因果拡散を抑制するか?
- Authors: Gunshi Gupta, Tim G. J. Rudner, Rowan Thomas McAllister, Adrien
Gaidon, Yarin Gal
- Abstract要約: 因果的混乱(英: Causal confusion)とは、エージェントがデータ中の不完全な急激な相関を反映するポリシーを学ぶ現象である。
この現象は特にロボット工学などの領域で顕著である。
本稿では,オフライン強化学習における因果的混乱について検討する。
- 参考スコア(独自算出の注目度): 58.942118128503104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Causal confusion is a phenomenon where an agent learns a policy that reflects
imperfect spurious correlations in the data. Such a policy may falsely appear
to be optimal during training if most of the training data contain such
spurious correlations. This phenomenon is particularly pronounced in domains
such as robotics, with potentially large gaps between the open- and closed-loop
performance of an agent. In such settings, causally confused models may appear
to perform well according to open-loop metrics during training but fail
catastrophically when deployed in the real world. In this paper, we study
causal confusion in offline reinforcement learning. We investigate whether
selectively sampling appropriate points from a dataset of demonstrations may
enable offline reinforcement learning agents to disambiguate the underlying
causal mechanisms of the environment, alleviate causal confusion in offline
reinforcement learning, and produce a safer model for deployment. To answer
this question, we consider a set of tailored offline reinforcement learning
datasets that exhibit causal ambiguity and assess the ability of active
sampling techniques to reduce causal confusion at evaluation. We provide
empirical evidence that uniform and active sampling techniques are able to
consistently reduce causal confusion as training progresses and that active
sampling is able to do so significantly more efficiently than uniform sampling.
- Abstract(参考訳): 因果的混乱(causal confusion)とは、エージェントがデータ内の不完全なスプリアス相関を反映したポリシーを学ぶ現象である。
このようなポリシーは、トレーニングデータの大半にそのような急激な相関がある場合、トレーニング中に最適であるように見える。
この現象は特にロボット工学のような分野において顕著であり、エージェントの開ループ性能と閉ループ性能の間に大きなギャップがある可能性がある。
このような環境では、因果的に混乱したモデルがトレーニング中のオープンループメトリックスでうまく機能するように見えるが、現実世界にデプロイすると壊滅的に失敗する。
本稿では,オフライン強化学習における因果的混乱について検討する。
実演データセットから適切なポイントを選択的にサンプリングすることで、オフライン強化学習エージェントが環境の根本原因メカニズムを曖昧にし、オフライン強化学習における因果的混乱を緩和し、より安全な展開モデルを作成することができるかを検討する。
この質問に答えるために,因果曖昧性を示すオフライン強化学習データセットのセットを検討し,評価時の因果混乱を軽減するためのアクティブサンプリング手法の能力を評価する。
トレーニングが進むにつれて,一様および活発なサンプリング技術が因果的混乱を一貫して低減し,一様サンプリングよりも効果的にアクティブサンプリングを行うことができるという実証的証拠を提供する。
関連論文リスト
- Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Causal Deep Reinforcement Learning Using Observational Data [11.790171301328158]
深部強化学習(DRL)における2つの解答法を提案する。
提案手法はまず, 因果推論法に基づいて異なる試料の重要度を算出し, 損失関数に対する異なる試料の影響を調整する。
本手法の有効性を実証し,実験的に検証する。
論文 参考訳(メタデータ) (2022-11-28T14:34:39Z) - An Empirical Study of Implicit Regularization in Deep Offline RL [44.62587507925864]
3つのオフラインRLデータセットにおける有効ランクと性能の関係について検討する。
暗黙の正規化が学習力学に与える影響を説明する学習の3つの段階を同定する。
論文 参考訳(メタデータ) (2022-07-05T15:07:31Z) - Generalizable Information Theoretic Causal Representation [37.54158138447033]
本稿では,観測データから因果表現を学習するために,仮説因果グラフに基づいて相互情報量で学習手順を規則化することを提案する。
この最適化は、因果性に着想を得た学習がサンプルの複雑さを減らし、一般化能力を向上させるという理論的保証を導出する反ファクト的損失を伴う。
論文 参考訳(メタデータ) (2022-02-17T00:38:35Z) - Benign Overfitting in Adversarially Robust Linear Classification [91.42259226639837]
分類器がノイズの多いトレーニングデータを記憶しながらも、優れた一般化性能を達成している「双曲オーバーフィッティング」は、機械学習コミュニティにおいて大きな注目を集めている。
本研究は, 対人訓練において, 対人訓練において, 良心過剰が実際に発生することを示し, 対人訓練に対する防御の原則的アプローチを示す。
論文 参考訳(メタデータ) (2021-12-31T00:27:31Z) - Tracking the risk of a deployed model and detecting harmful distribution
shifts [105.27463615756733]
実際には、デプロイされたモデルのパフォーマンスが大幅に低下しないという、良心的なシフトを無視することは理にかなっている。
我々は,警告を発射する有効な方法は,(a)良性な警告を無視しながら有害なシフトを検知し,(b)誤報率を増大させることなく,モデル性能の連続的なモニタリングを可能にすることを論じる。
論文 参考訳(メタデータ) (2021-10-12T17:21:41Z) - Causal Reinforcement Learning using Observational and Interventional
Data [14.856472820492364]
環境の因果モデルを効率的に学習することは、PMDPで動作するモデルRLエージェントの重要な課題である。
学習エージェントが環境と直接対話することでオンライン体験を収集できるシナリオを考察する。
オンラインとオフラインのエクスペリエンスは、因果モデルを学ぶために安全に組み合わせられるか?
論文 参考訳(メタデータ) (2021-06-28T06:58:20Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。