論文の概要: Imitation Game: A Model-based and Imitation Learning Deep Reinforcement Learning Hybrid
- arxiv url: http://arxiv.org/abs/2404.01794v1
- Date: Tue, 2 Apr 2024 09:55:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 17:09:01.436729
- Title: Imitation Game: A Model-based and Imitation Learning Deep Reinforcement Learning Hybrid
- Title(参考訳): 模擬ゲーム: モデルベースおよび模擬学習による深層強化学習ハイブリッド
- Authors: Eric MSP Veith, Torben Logemann, Aleksandr Berezin, Arlena Wellßow, Stephan Balduin,
- Abstract要約: 本稿では,モデルに基づくDeep Reinforcement Learningと模倣学習を組み合わせたハイブリッドエージェントアーキテクチャへの取り組みについて述べる。
本稿では,モデルに基づくDeep Reinforcement Learningと模倣学習を組み合わせたハイブリッドエージェントアーキテクチャへの取り組みについて述べる。
- 参考スコア(独自算出の注目度): 39.58317527488534
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Autonomous and learning systems based on Deep Reinforcement Learning have firmly established themselves as a foundation for approaches to creating resilient and efficient Cyber-Physical Energy Systems. However, most current approaches suffer from two distinct problems: Modern model-free algorithms such as Soft Actor Critic need a high number of samples to learn a meaningful policy, as well as a fallback to ward against concept drifts (e. g., catastrophic forgetting). In this paper, we present the work in progress towards a hybrid agent architecture that combines model-based Deep Reinforcement Learning with imitation learning to overcome both problems.
- Abstract(参考訳): 深層強化学習に基づく自律学習システムは、レジリエンスで効率的なサイバー物理エネルギーシステムを構築するための基盤として、しっかりと確立されてきた。
しかし、現在のほとんどのアプローチは、2つの異なる問題に悩まされている。 ソフトアクター批判のような近代的なモデルフリーアルゴリズムは、意味のあるポリシーを学ぶのに大量のサンプルを必要とし、概念の漂流に対して後退する(例えば、破滅的な忘れ)。
本稿では,モデルに基づくDeep Reinforcement Learningと模倣学習を組み合わせたハイブリッドエージェントアーキテクチャへの取り組みについて述べる。
関連論文リスト
- Continual Learning with Weight Interpolation [4.689826327213979]
継続的な学習には、モデルが以前のタスクからの知識を維持しながら、新しいタスクに適応する必要がある。
本稿では,重み強化手法を用いた継続学習手法を提案する。
論文 参考訳(メタデータ) (2024-04-05T10:25:40Z) - Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - Hierarchical Framework for Interpretable and Probabilistic Model-Based
Safe Reinforcement Learning [1.3678669691302048]
本稿では,安全クリティカルシステムにおける深層強化学習の新たなアプローチを提案する。
確率論的モデリングと強化学習の利点と、解釈可能性の利点を兼ね備えている。
論文 参考訳(メタデータ) (2023-10-28T20:30:57Z) - Class-Incremental Mixture of Gaussians for Deep Continual Learning [15.49323098362628]
本稿では,ガウスモデルの混合を連続学習フレームワークに組み込むことを提案する。
固定抽出器を用いたメモリフリーシナリオにおいて,本モデルが効果的に学習可能であることを示す。
論文 参考訳(メタデータ) (2023-07-09T04:33:19Z) - CoopInit: Initializing Generative Adversarial Networks via Cooperative
Learning [50.90384817689249]
CoopInitは、協力的な学習ベースの戦略で、GANにとって良い出発点を素早く学べる。
本稿では,画像生成における提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-03-21T07:49:32Z) - Self-Destructing Models: Increasing the Costs of Harmful Dual Uses of
Foundation Models [103.71308117592963]
本稿ではメタラーニングと逆学習の技法を活用した自己破壊モデルの学習アルゴリズムを提案する。
小規模な実験では、MLACは、BERTスタイルのモデルが性別識別を行うために再目的化されることをほとんど防ぐことができることを示す。
論文 参考訳(メタデータ) (2022-11-27T21:43:45Z) - Guaranteed Conservation of Momentum for Learning Particle-based Fluid
Dynamics [96.9177297872723]
本稿では,学習物理シミュレーションにおける線形運動量を保証する新しい手法を提案する。
我々は、強い制約で運動量の保存を強制し、反対称的な連続的な畳み込み層を通して実現する。
提案手法により,学習シミュレータの物理的精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-10-12T09:12:59Z) - Deep Model-Based Reinforcement Learning for High-Dimensional Problems, a
Survey [1.2031796234206134]
モデルに基づく強化学習は、環境サンプルの必要性を減らすために、環境力学の明示的なモデルを生成する。
深層モデルに基づく手法の課題は、低いサンプルの複雑さを維持しながら高い予測力を達成することである。
本稿では, 与えられた遷移を明示的に計画すること, 学習した遷移を明示的に計画すること, 計画と遷移の両方をエンドツーエンドで学習することの3つのアプローチに基づく分類法を提案する。
論文 参考訳(メタデータ) (2020-08-11T08:49:04Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Enhanced Adversarial Strategically-Timed Attacks against Deep
Reinforcement Learning [91.13113161754022]
本稿では,DRLに基づくナビゲーションシステムに対して,選択した時間フレーム上の物理ノイズパターンを妨害することにより,タイミングに基づく逆方向戦略を導入する。
実験結果から, 対向タイミング攻撃は性能低下を引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2020-02-20T21:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。