論文の概要: The Difficulty of Passive Learning in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2110.14020v1
- Date: Tue, 26 Oct 2021 20:50:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-29 09:02:13.713902
- Title: The Difficulty of Passive Learning in Deep Reinforcement Learning
- Title(参考訳): 深層強化学習における受動学習の難しさ
- Authors: Georg Ostrovski, Pablo Samuel Castro, Will Dabney
- Abstract要約: アクティブな環境相互作用のない観測データから行動する学習は、強化学習(RL)の課題としてよく知られている。
最近のアプローチでは、学習したポリシーや保守的な更新に対する制約が伴い、データセットのステートアクション分布からの強い逸脱を防ぐ。
オフライン強化学習における困難を実証的に分析する「タンデム学習」実験パラダイムを提案する。
- 参考スコア(独自算出の注目度): 26.124032923011328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning to act from observational data without active environmental
interaction is a well-known challenge in Reinforcement Learning (RL). Recent
approaches involve constraints on the learned policy or conservative updates,
preventing strong deviations from the state-action distribution of the dataset.
Although these methods are evaluated using non-linear function approximation,
theoretical justifications are mostly limited to the tabular or linear cases.
Given the impressive results of deep reinforcement learning, we argue for a
need to more clearly understand the challenges in this setting.
In the vein of Held & Hein's classic 1963 experiment, we propose the "tandem
learning" experimental paradigm which facilitates our empirical analysis of the
difficulties in offline reinforcement learning. We identify function
approximation in conjunction with fixed data distributions as the strongest
factors, thereby extending but also challenging hypotheses stated in past work.
Our results provide relevant insights for offline deep reinforcement learning,
while also shedding new light on phenomena observed in the online case of
learning control.
- Abstract(参考訳): 環境相互作用のない観測データから行動する学習は、強化学習(RL)においてよく知られている課題である。
最近のアプローチでは、学習したポリシーや保守的な更新に対する制約が伴い、データセットのステートアクション分布からの強い逸脱を防ぐ。
これらの手法は非線形関数近似を用いて評価されるが、理論的正当化は主に表式や線形の場合に限られる。
深層強化学習の印象的な結果を考えると、我々はこの設定における課題をより明確に理解する必要があると論じている。
ヘルド・アンド・ハインの1963年の古典的実験において、オフライン強化学習の難しさを実証分析するための「タンデム学習」実験パラダイムを提案する。
固定データ分布と連動して関数近似を最強因子として同定し,過去の研究で述べられた仮説を拡張しながらも挑戦する。
本研究は,オンライン学習制御の事例において観察される現象に新たな光を当てつつ,オフラインの深層強化学習に関する関連知見を提供する。
関連論文リスト
- Relaxed Contrastive Learning for Federated Learning [53.48804883845343]
本稿では,フェデレート学習におけるデータ不均一性の課題に対処する,新しいコントラスト学習フレームワークを提案する。
当社のフレームワークは,既存のフェデレート学習アプローチを,標準ベンチマークにおいて大きなマージンで上回ります。
論文 参考訳(メタデータ) (2024-01-10T04:55:24Z) - Efficient Two-Phase Offline Deep Reinforcement Learning from Preference
Feedback [5.683832910692926]
オフラインPBRL設定における二相学習の適用には課題がある。
本稿では,アクションクリッピングによる行動規則化下での2段階の学習手法を提案する。
本手法は,第2学習段階における状態行動を無視して,より高い学習効率を実現する。
論文 参考訳(メタデータ) (2023-12-30T21:37:18Z) - Loss Dynamics of Temporal Difference Reinforcement Learning [36.772501199987076]
線形関数近似器を用いた値関数の時間差学習のためのケースラーニング曲線について検討した。
本研究では,学習力学と台地が特徴構造,学習率,割引係数,報酬関数にどのように依存するかを検討する。
論文 参考訳(メタデータ) (2023-07-10T18:17:50Z) - Causal Reinforcement Learning: A Survey [57.368108154871]
強化学習は、不確実性の下でのシーケンシャルな決定問題の解決に不可欠なパラダイムである。
主な障害の1つは、強化学習エージェントが世界に対する根本的な理解を欠いていることである。
因果性は、体系的な方法で知識を形式化できるという点で顕著な利点がある。
論文 参考訳(メタデータ) (2023-07-04T03:00:43Z) - Resilient Constrained Learning [94.27081585149836]
本稿では,学習課題を同時に解決しながら,要求に適応する制約付き学習手法を提案する。
我々はこの手法を、その操作を変更することで破壊に適応する生態システムを記述する用語に因んで、レジリエントな制約付き学習と呼ぶ。
論文 参考訳(メタデータ) (2023-06-04T18:14:18Z) - CLARE: Conservative Model-Based Reward Learning for Offline Inverse
Reinforcement Learning [26.05184273238923]
この研究は、オフライン逆強化学習(IRL)における大きな課題に取り組むことを目的としている。
我々は「保守主義」を学習報酬関数に統合することでオフラインIRLを効率的に解くアルゴリズム(CLARE)を考案した。
我々の理論的分析は、学習した方針と専門家の政策の間のリターンギャップに上限を与える。
論文 参考訳(メタデータ) (2023-02-09T17:16:29Z) - Causal Deep Reinforcement Learning Using Observational Data [11.790171301328158]
深部強化学習(DRL)における2つの解答法を提案する。
提案手法はまず, 因果推論法に基づいて異なる試料の重要度を算出し, 損失関数に対する異なる試料の影響を調整する。
本手法の有効性を実証し,実験的に検証する。
論文 参考訳(メタデータ) (2022-11-28T14:34:39Z) - On Covariate Shift of Latent Confounders in Imitation and Reinforcement
Learning [69.48387059607387]
模擬・強化学習において,未観測の共同設立者と専門家データを併用することの問題点を考察する。
我々は、外部報酬を伴わずに、確立した専門家データから学ぶことの限界を分析する。
我々は,支援医療とレコメンデーションシステムシミュレーションの課題に挑戦する上で,我々の主張を実証的に検証する。
論文 参考訳(メタデータ) (2021-10-13T07:31:31Z) - Where Did You Learn That From? Surprising Effectiveness of Membership
Inference Attacks Against Temporally Correlated Data in Deep Reinforcement
Learning [114.9857000195174]
深い強化学習を産業的に広く採用する上での大きな課題は、プライバシー侵害の潜在的な脆弱性である。
本稿では, 深層強化学習アルゴリズムの脆弱性を検証し, メンバーシップ推論攻撃に適応する対戦型攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-08T23:44:57Z) - Causal Reinforcement Learning using Observational and Interventional
Data [14.856472820492364]
環境の因果モデルを効率的に学習することは、PMDPで動作するモデルRLエージェントの重要な課題である。
学習エージェントが環境と直接対話することでオンライン体験を収集できるシナリオを考察する。
オンラインとオフラインのエクスペリエンスは、因果モデルを学ぶために安全に組み合わせられるか?
論文 参考訳(メタデータ) (2021-06-28T06:58:20Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。