論文の概要: Causal Deep Reinforcement Learning Using Observational Data
- arxiv url: http://arxiv.org/abs/2211.15355v2
- Date: Fri, 9 Jun 2023 17:03:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 18:06:42.959019
- Title: Causal Deep Reinforcement Learning Using Observational Data
- Title(参考訳): 観測データを用いた因果深い強化学習
- Authors: Wenxuan Zhu, Chao Yu, Qiang Zhang
- Abstract要約: 深部強化学習(DRL)における2つの解答法を提案する。
提案手法はまず, 因果推論法に基づいて異なる試料の重要度を算出し, 損失関数に対する異なる試料の影響を調整する。
本手法の有効性を実証し,実験的に検証する。
- 参考スコア(独自算出の注目度): 11.790171301328158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (DRL) requires the collection of interventional
data, which is sometimes expensive and even unethical in the real world, such
as in the autonomous driving and the medical field. Offline reinforcement
learning promises to alleviate this issue by exploiting the vast amount of
observational data available in the real world. However, observational data may
mislead the learning agent to undesirable outcomes if the behavior policy that
generates the data depends on unobserved random variables (i.e., confounders).
In this paper, we propose two deconfounding methods in DRL to address this
problem. The methods first calculate the importance degree of different samples
based on the causal inference technique, and then adjust the impact of
different samples on the loss function by reweighting or resampling the offline
dataset to ensure its unbiasedness. These deconfounding methods can be flexibly
combined with existing model-free DRL algorithms such as soft actor-critic and
deep Q-learning, provided that a weak condition can be satisfied by the loss
functions of these algorithms. We prove the effectiveness of our deconfounding
methods and validate them experimentally.
- Abstract(参考訳): 深層強化学習(DRL)は介入データの収集を必要とするが、これは時として、自動運転車や医療分野のような現実世界では高価で非倫理的である。
オフライン強化学習は、現実世界で利用可能な膨大な観測データを活用することでこの問題を軽減することを約束している。
しかし、観測データは、データを生成する行動ポリシーが観測されていない確率変数(つまり共同設立者)に依存する場合、学習エージェントを望ましくない結果へと誤解させる可能性がある。
本稿では,この問題に対処するため,DRLにおける2つの分離手法を提案する。
提案手法はまず,因果推論手法に基づいて異なるサンプルの重要度を算出し,その不偏性を確保するためにオフラインデータセットを再重み付けあるいは再サンプリングすることにより,損失関数に対する異なるサンプルの影響を調整する。
これらの解離法は、これらのアルゴリズムの損失関数によって弱条件を満たすことができることを条件として、ソフトアクター批判や深部Q-ラーニングのような既存のモデルフリーDRLアルゴリズムと柔軟に組み合わせることができる。
本手法の有効性を実証し,実験的に検証する。
関連論文リスト
- Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。
検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文 参考訳(メタデータ) (2023-04-20T17:11:05Z) - A Data-Centric Approach for Improving Adversarial Training Through the
Lens of Out-of-Distribution Detection [0.4893345190925178]
複雑なアルゴリズムを適用して効果を緩和するのではなく, トレーニング手順から直接ハードサンプルを検出し, 除去することを提案する。
SVHN と CIFAR-10 データセットを用いた結果,計算コストの増大を伴わずに対角訓練の改善に本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-01-25T08:13:50Z) - Behavior Estimation from Multi-Source Data for Offline Reinforcement
Learning [20.143230846339804]
行動推定は、トレーニングデータを生成するポリシーを推定することを目的としている。
この研究は、データを複数のソースから収集するシナリオについて考察する。
本研究は広範囲な評価により,行動不特定性の存在と,提案モデルの有効性を確認した。
論文 参考訳(メタデータ) (2022-11-29T10:41:44Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Sample-Efficient Reinforcement Learning via Counterfactual-Based Data
Augmentation [15.451690870640295]
医療などのいくつかのシナリオでは、通常、各患者に利用可能なレコードはごくわずかであり、現在の強化学習アルゴリズムの適用を妨げる。
構造因果モデル(SCM)を利用して状態ダイナミクスをモデル化する,データ効率の高いRLアルゴリズムを提案する。
本研究は, 軽度条件下では反実結果が識別可能であり, 反実に基づく拡張データセット上のq学習が最適値関数に収束することを示す。
論文 参考訳(メタデータ) (2020-12-16T17:21:13Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。