Fugu-MT 論文翻訳(概要): The Difficulty of Passive Learning in Deep Reinforcement Learning

論文の概要: The Difficulty of Passive Learning in Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2110.14020v1
Date: Tue, 26 Oct 2021 20:50:49 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-29 09:02:13.713902
Title: The Difficulty of Passive Learning in Deep Reinforcement Learning
Title（参考訳）: 深層強化学習における受動学習の難しさ
Authors: Georg Ostrovski, Pablo Samuel Castro, Will Dabney
Abstract要約: アクティブな環境相互作用のない観測データから行動する学習は、強化学習(RL)の課題としてよく知られている。最近のアプローチでは、学習したポリシーや保守的な更新に対する制約が伴い、データセットのステートアクション分布からの強い逸脱を防ぐ。オフライン強化学習における困難を実証的に分析する「タンデム学習」実験パラダイムを提案する。
参考スコア（独自算出の注目度）: 26.124032923011328
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Learning to act from observational data without active environmental interaction is a well-known challenge in Reinforcement Learning (RL). Recent approaches involve constraints on the learned policy or conservative updates, preventing strong deviations from the state-action distribution of the dataset. Although these methods are evaluated using non-linear function approximation, theoretical justifications are mostly limited to the tabular or linear cases. Given the impressive results of deep reinforcement learning, we argue for a need to more clearly understand the challenges in this setting. In the vein of Held & Hein's classic 1963 experiment, we propose the "tandem learning" experimental paradigm which facilitates our empirical analysis of the difficulties in offline reinforcement learning. We identify function approximation in conjunction with fixed data distributions as the strongest factors, thereby extending but also challenging hypotheses stated in past work. Our results provide relevant insights for offline deep reinforcement learning, while also shedding new light on phenomena observed in the online case of learning control.
Abstract（参考訳）: 環境相互作用のない観測データから行動する学習は、強化学習(RL)においてよく知られている課題である。最近のアプローチでは、学習したポリシーや保守的な更新に対する制約が伴い、データセットのステートアクション分布からの強い逸脱を防ぐ。これらの手法は非線形関数近似を用いて評価されるが、理論的正当化は主に表式や線形の場合に限られる。深層強化学習の印象的な結果を考えると、我々はこの設定における課題をより明確に理解する必要があると論じている。ヘルド・アンド・ハインの1963年の古典的実験において、オフライン強化学習の難しさを実証分析するための「タンデム学習」実験パラダイムを提案する。固定データ分布と連動して関数近似を最強因子として同定し,過去の研究で述べられた仮説を拡張しながらも挑戦する。本研究は,オンライン学習制御の事例において観察される現象に新たな光を当てつつ,オフラインの深層強化学習に関する関連知見を提供する。

関連論文リスト

Value from Observations: Towards Large-Scale Imitation Learning via Self-Improvement [19.883973457999282]
Imitation Learning from Observation (IfO)は、大規模に振る舞いを学ぶ強力な方法を提供する。本稿では,主にバイモーダル品質のデータ分布を用いた理想的なシナリオについて検討し,そのようなデータから学習する方法を提案する。提案手法は,専門家データと非専門家データ間の情報伝達に値関数を用いて,アクションフリーな実演にRLに基づく模倣学習を適用した。
論文参考訳（メタデータ） (2025-07-09T09:55:23Z)
Global Convergence of Continual Learning on Non-IID Data [51.99584235667152]
回帰モデルの連続学習のための総合的・包括的理論的解析を行う。一般データ条件下で連続学習のほぼ確実に収束する結果を初めて確立する。
論文参考訳（メタデータ） (2025-03-24T10:06:07Z)
Accurate Forgetting for Heterogeneous Federated Continual Learning [89.08735771893608]
提案手法は,フェデレーションネットワークにおける従来の知識を選択的に活用する新しい生成再生手法である。我々は,従来の知識の信頼性を定量化するために,正規化フローモデルに基づく確率的フレームワークを用いる。
論文参考訳（メタデータ） (2025-02-20T02:35:17Z)
Temporal-Difference Variational Continual Learning [89.32940051152782]
複数の先行推定の正則化効果を統合する新たな学習目標を提案する。提案手法は, 変分CL法より優れたカタストロフィックフォーミングを効果的に緩和する。
論文参考訳（メタデータ） (2024-10-10T10:58:41Z)
Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文参考訳（メタデータ） (2024-03-18T14:51:19Z)
Are Uncertainty Quantification Capabilities of Evidential Deep Learning a Mirage? [35.15844215216846]
EDL法は,特定の目的関数を最小化することにより,予測分布上のメタ分布を学習する。近年の研究では、学習した不確実性は信頼できないと結論づける既存の方法の限界が特定されている。本研究では,多種多様な目的関数を統一することにより,多種多様なEDL手法の挙動をより深く理解する。我々は,EDL法が下流タスクに実証的に有効であるとしても,不確実な定量化能力に乏しいにもかかわらず,これは発生すると結論付けた。
論文参考訳（メタデータ） (2024-02-09T03:23:39Z)
Loss Dynamics of Temporal Difference Reinforcement Learning [36.772501199987076]
線形関数近似器を用いた値関数の時間差学習のためのケースラーニング曲線について検討した。本研究では,学習力学と台地が特徴構造,学習率,割引係数,報酬関数にどのように依存するかを検討する。
論文参考訳（メタデータ） (2023-07-10T18:17:50Z)
Causal Reinforcement Learning: A Survey [57.368108154871]
強化学習は、不確実性の下でのシーケンシャルな決定問題の解決に不可欠なパラダイムである。主な障害の1つは、強化学習エージェントが世界に対する根本的な理解を欠いていることである。因果性は、体系的な方法で知識を形式化できるという点で顕著な利点がある。
論文参考訳（メタデータ） (2023-07-04T03:00:43Z)
Resilient Constrained Learning [94.27081585149836]
本稿では,学習課題を同時に解決しながら,要求に適応する制約付き学習手法を提案する。我々はこの手法を、その操作を変更することで破壊に適応する生態システムを記述する用語に因んで、レジリエントな制約付き学習と呼ぶ。
論文参考訳（メタデータ） (2023-06-04T18:14:18Z)
CLARE: Conservative Model-Based Reward Learning for Offline Inverse Reinforcement Learning [26.05184273238923]
この研究は、オフライン逆強化学習(IRL)における大きな課題に取り組むことを目的としている。我々は「保守主義」を学習報酬関数に統合することでオフラインIRLを効率的に解くアルゴリズム(CLARE)を考案した。我々の理論的分析は、学習した方針と専門家の政策の間のリターンギャップに上限を与える。
論文参考訳（メタデータ） (2023-02-09T17:16:29Z)
On Covariate Shift of Latent Confounders in Imitation and Reinforcement Learning [69.48387059607387]
模擬・強化学習において,未観測の共同設立者と専門家データを併用することの問題点を考察する。我々は、外部報酬を伴わずに、確立した専門家データから学ぶことの限界を分析する。我々は,支援医療とレコメンデーションシステムシミュレーションの課題に挑戦する上で,我々の主張を実証的に検証する。
論文参考訳（メタデータ） (2021-10-13T07:31:31Z)
Where Did You Learn That From? Surprising Effectiveness of Membership Inference Attacks Against Temporally Correlated Data in Deep Reinforcement Learning [114.9857000195174]
深い強化学習を産業的に広く採用する上での大きな課題は、プライバシー侵害の潜在的な脆弱性である。本稿では, 深層強化学習アルゴリズムの脆弱性を検証し, メンバーシップ推論攻撃に適応する対戦型攻撃フレームワークを提案する。
論文参考訳（メタデータ） (2021-09-08T23:44:57Z)
Causal Reinforcement Learning using Observational and Interventional Data [14.856472820492364]
環境の因果モデルを効率的に学習することは、PMDPで動作するモデルRLエージェントの重要な課題である。学習エージェントが環境と直接対話することでオンライン体験を収集できるシナリオを考察する。オンラインとオフラインのエクスペリエンスは、因果モデルを学ぶために安全に組み合わせられるか?
論文参考訳（メタデータ） (2021-06-28T06:58:20Z)
Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文参考訳（メタデータ） (2021-02-25T21:33:47Z)
Provably Efficient Causal Reinforcement Learning with Confounded Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-22T14:49:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。