論文の概要: Causal Deep Reinforcement Learning using Observational Data
- arxiv url: http://arxiv.org/abs/2211.15355v1
- Date: Mon, 28 Nov 2022 14:34:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 16:15:30.041746
- Title: Causal Deep Reinforcement Learning using Observational Data
- Title(参考訳): 観測データを用いた因果深い強化学習
- Authors: Wenxuan Zhu, Chao Yu, Qiang Zhang
- Abstract要約: オフラインの強化学習は この問題を軽減すると約束します 現実世界で利用可能な 膨大な量の観測データを 利用することで
しかし、観測データは、データを生成する行動ポリシーが観測されない確率変数に依存する場合、学習エージェントを望ましくない結果に誤解させる可能性がある。
DRLでは,この問題に対処する2つの解答法を提案する。
- 参考スコア(独自算出の注目度): 11.790171301328158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (DRL) requires the collection of plenty of
interventional data, which is sometimes expensive and even unethical in the
real world, such as in the autonomous driving and the medical field. Offline
reinforcement learning promises to alleviate this issue by exploiting the vast
amount of observational data available in the real world. However,
observational data may mislead the learning agent to undesirable outcomes if
the behavior policy that generates the data depends on unobserved random
variables (i.e., confounders). In this paper, we propose two deconfounding
methods in DRL to address this problem. The methods first calculate the
importance degree of different samples based on the causal inference technique,
and then adjust the impact of different samples on the loss function by
reweighting or resampling the offline dataset to ensure its unbiasedness. These
deconfounding methods can be flexibly combined with the existing model-free DRL
algorithms such as soft actor-critic and deep Q-learning, provided that a weak
condition can be satisfied by the loss functions of these algorithms. We prove
the effectiveness of our deconfounding methods and validate them
experimentally.
- Abstract(参考訳): 深層強化学習(DRL)は、自動運転車や医療分野など、現実の世界では高価で倫理的ではない多くの介入データを収集する必要がある。
オフライン強化学習は、現実世界で利用可能な膨大な観測データを活用することでこの問題を軽減することを約束している。
しかし、観測データは、データを生成する行動ポリシーが観測されていない確率変数(つまり共同設立者)に依存する場合、学習エージェントを望ましくない結果へと誤解させる可能性がある。
本稿では,この問題に対処するため,DRLにおける2つの分離手法を提案する。
提案手法はまず,因果推論手法に基づいて異なるサンプルの重要度を算出し,その不偏性を確保するためにオフラインデータセットを再重み付けあるいは再サンプリングすることにより,損失関数に対する異なるサンプルの影響を調整する。
これらの解離法は、これらのアルゴリズムの損失関数によって弱条件を満たすことができることを条件として、ソフトアクター批判や深部Q-ラーニングのような既存のモデルフリーDRLアルゴリズムと柔軟に組み合わせることができる。
本手法の有効性を実証し,実験的に検証する。
関連論文リスト
- Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。
提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。
DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-10-02T07:14:26Z) - On the Influence of Data Resampling for Deep Learning-Based Log Anomaly Detection: Insights and Recommendations [10.931620604044486]
本研究は,多様なデータ再サンプリング手法が既存のADアプローチに与える影響を詳細に分析する。
クラス不均衡のレベルが異なる4つのデータセットにまたがるこれらのADアプローチの性能を評価する。
正常なデータと異常なデータの最適な再サンプリング率を利用する際のデータ再サンプリング手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-05-06T14:01:05Z) - Simple Ingredients for Offline Reinforcement Learning [86.1988266277766]
オフライン強化学習アルゴリズムは、ターゲット下流タスクに高度に接続されたデータセットに有効であることが証明された。
既存の手法が多様なデータと競合することを示す。その性能は、関連するデータ収集によって著しく悪化するが、オフラインバッファに異なるタスクを追加するだけでよい。
アルゴリズム的な考慮以上のスケールが、パフォーマンスに影響を及ぼす重要な要因であることを示す。
論文 参考訳(メタデータ) (2024-03-19T18:57:53Z) - Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。
検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文 参考訳(メタデータ) (2023-04-20T17:11:05Z) - A Data-Centric Approach for Improving Adversarial Training Through the
Lens of Out-of-Distribution Detection [0.4893345190925178]
複雑なアルゴリズムを適用して効果を緩和するのではなく, トレーニング手順から直接ハードサンプルを検出し, 除去することを提案する。
SVHN と CIFAR-10 データセットを用いた結果,計算コストの増大を伴わずに対角訓練の改善に本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-01-25T08:13:50Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Sample-Efficient Reinforcement Learning via Counterfactual-Based Data
Augmentation [15.451690870640295]
医療などのいくつかのシナリオでは、通常、各患者に利用可能なレコードはごくわずかであり、現在の強化学習アルゴリズムの適用を妨げる。
構造因果モデル(SCM)を利用して状態ダイナミクスをモデル化する,データ効率の高いRLアルゴリズムを提案する。
本研究は, 軽度条件下では反実結果が識別可能であり, 反実に基づく拡張データセット上のq学習が最適値関数に収束することを示す。
論文 参考訳(メタデータ) (2020-12-16T17:21:13Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。