論文の概要: Episodic Reinforcement Learning with Expanded State-reward Space
- arxiv url: http://arxiv.org/abs/2401.10516v1
- Date: Fri, 19 Jan 2024 06:14:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 16:43:44.598492
- Title: Episodic Reinforcement Learning with Expanded State-reward Space
- Title(参考訳): 拡張状態逆空間を用いたエピソード強化学習
- Authors: Dayang Liang, Yaru Zhang and Yunlong Liu
- Abstract要約: 本稿では, 入力として使用する拡張状態と, トレーニングで使用する拡張報酬が, 履歴情報と現在の情報の両方を含むような, 拡張された状態逆空間を持つ効率的なECベースのDRLフレームワークを提案する。
提案手法は,検索情報の完全活用と時間差分(TD)損失による状態値の評価を同時に行うことができる。
- 参考スコア(独自算出の注目度): 1.479675621064679
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Empowered by deep neural networks, deep reinforcement learning (DRL) has
demonstrated tremendous empirical successes in various domains, including
games, health care, and autonomous driving. Despite these advancements, DRL is
still identified as data-inefficient as effective policies demand vast numbers
of environmental samples. Recently, episodic control (EC)-based model-free DRL
methods enable sample efficiency by recalling past experiences from episodic
memory. However, existing EC-based methods suffer from the limitation of
potential misalignment between the state and reward spaces for neglecting the
utilization of (past) retrieval states with extensive information, which
probably causes inaccurate value estimation and degraded policy performance. To
tackle this issue, we introduce an efficient EC-based DRL framework with
expanded state-reward space, where the expanded states used as the input and
the expanded rewards used in the training both contain historical and current
information. To be specific, we reuse the historical states retrieved by EC as
part of the input states and integrate the retrieved MC-returns into the
immediate reward in each interactive transition. As a result, our method is
able to simultaneously achieve the full utilization of retrieval information
and the better evaluation of state values by a Temporal Difference (TD) loss.
Empirical results on challenging Box2d and Mujoco tasks demonstrate the
superiority of our method over a recent sibling method and common baselines.
Further, we also verify our method's effectiveness in alleviating Q-value
overestimation by additional experiments of Q-value comparison.
- Abstract(参考訳): 深層ニューラルネットワークを駆使した深層強化学習(DRL)は、ゲームやヘルスケア、自動運転など、さまざまな分野で大きな成功を収めている。
これらの進歩にもかかわらず、DRLは依然として大量の環境サンプルを必要とする効果的な政策であるため、データ非効率であると認識されている。
近年, エピソディック制御(EC)に基づくモデルフリーDRL法は, エピソディックメモリから過去の経験を思い出し, サンプル効率を向上している。
しかし、既存のECベースの手法では、(過去)検索状態の広範な利用を無視するため、状態と報酬空間の間の潜在的なミスアライメントの制限に悩まされ、おそらく不正確な価値推定と劣化した政策性能を引き起こす。
この問題に対処するため,拡張された状態が入力として使用され,トレーニングで使用される報酬が履歴情報と現在の情報の両方を含む,効率的なECベースのDRLフレームワークを導入する。
具体的には、ECが取得した履歴状態を入力状態の一部として再利用し、得られたMC-リターンをインタラクティブな遷移毎に即時報酬に統合する。
これにより,検索情報の完全活用と,時間差(td)損失による状態値のより良い評価を同時に達成することができる。
Box2d と Mujoco のタスクに挑戦する実験的な結果から,最近の兄弟メソッドや共通ベースラインよりも提案手法が優れていることを示す。
さらに、Q値比較のさらなる実験により、Q値過大評価を緩和する手法の有効性を検証する。
関連論文リスト
- Strategically Conservative Q-Learning [89.17906766703763]
オフライン強化学習(RL)は、RLの実用性を拡張するための魅力的なパラダイムである。
オフラインRLの最大の難しさは、オフ・オブ・ディストリビューション(OOD)アクションに遭遇する際の近似誤差の影響を緩和することである。
本稿では, 予測が容易かつ困難であるOODデータを識別する, SCQ(Strategical conservative Q-Learning) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T22:09:46Z) - SAFE-RL: Saliency-Aware Counterfactual Explainer for Deep Reinforcement Learning Policies [13.26174103650211]
学習されたポリシーの説明可能性の欠如は、自動運転システムのような安全クリティカルなアプリケーションへの取り込みを妨げる。
対実的(CF)説明は、最近、ブラックボックスディープラーニング(DL)モデルを解釈する能力で有名になった。
そこで本稿では,過去の観測状態の列にまたがる最も影響力のある入力画素を特定するために,サリエンシマップを提案する。
我々は,ADS,Atari Pong,Pacman,Space-invadersゲームなど,多種多様な領域におけるフレームワークの有効性を評価する。
論文 参考訳(メタデータ) (2024-04-28T21:47:34Z) - Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。
検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文 参考訳(メタデータ) (2023-04-20T17:11:05Z) - Detecting Out-of-distribution Examples via Class-conditional Impressions
Reappearing [30.938412222724608]
Out-of-Distribution(OOD)検出は、標準のディープニューラルネットワークを拡張して、元のトレーニングデータと異常な入力を区別することを目的としている。
プライバシーとセキュリティのため、補助的なデータは現実のシナリオでは実用的ではない傾向にある。
我々は,C2IR(Class-Conditional Impressions Reappearing)と呼ばれる,自然データに対する訓練を伴わないデータフリー手法を提案する。
論文 参考訳(メタデータ) (2023-03-17T02:55:08Z) - Neural Episodic Control with State Abstraction [38.95199070504417]
既存のDeep Reinforcement Learning (DRL)アルゴリズムは、サンプルの非効率に悩まされている。
この研究は、状態抽象化を伴うニューラルエピソード制御(NECSA)を導入している。
オープンAI体育ドメインにおける MuJoCo タスクと Atari タスクに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-01-27T01:55:05Z) - Age of Semantics in Cooperative Communications: To Expedite Simulation
Towards Real via Offline Reinforcement Learning [53.18060442931179]
協調リレー通信システムにおける状態更新のセマンティックス更新度を測定するための意味学年代(AoS)を提案する。
オンライン・ディープ・アクター・クリティック(DAC)学習手法を,政治時間差学習の枠組みに基づいて提案する。
そこで我々は,以前に収集したデータセットから最適制御ポリシーを推定する,新しいオフラインDAC方式を提案する。
論文 参考訳(メタデータ) (2022-09-19T11:55:28Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Regularized Behavior Value Estimation [31.332929202377]
正規化行動値推定(R-BVE)を導入する。
R-BVEはトレーニング中の行動方針の価値を推定し、展開時にのみ政策改善を行います。
我々は,RL Unplugged ATARIデータセットの最先端性能を含む,R-BVEの有効性の実証的な証拠を多数提供する。
論文 参考訳(メタデータ) (2021-03-17T11:34:54Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。