論文の概要: Go-Explore for Residential Energy Management
- arxiv url: http://arxiv.org/abs/2401.07710v1
- Date: Mon, 15 Jan 2024 14:26:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 17:01:10.932263
- Title: Go-Explore for Residential Energy Management
- Title(参考訳): 住宅エネルギー管理のためのGo-Explore
- Authors: Junlin Lu, Patrick Mannion, Karl Mason
- Abstract要約: Go-Exploreは、効率的な探索を実現するための計画手法と強化学習手法を組み合わせたアルゴリズムのファミリーである。
我々はGo-Exploreアルゴリズムを用いて、住宅エネルギー管理問題におけるコスト削減の課題を解決し、よく知られた強化学習アルゴリズムと比較して19.84%の改善を実現している。
- 参考スコア(独自算出の注目度): 3.354345524478023
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement learning is commonly applied in residential energy management,
particularly for optimizing energy costs. However, RL agents often face
challenges when dealing with deceptive and sparse rewards in the energy control
domain, especially with stochastic rewards. In such situations, thorough
exploration becomes crucial for learning an optimal policy. Unfortunately, the
exploration mechanism can be misled by deceptive reward signals, making
thorough exploration difficult. Go-Explore is a family of algorithms which
combines planning methods and reinforcement learning methods to achieve
efficient exploration. We use the Go-Explore algorithm to solve the cost-saving
task in residential energy management problems and achieve an improvement of up
to 19.84\% compared to the well-known reinforcement learning algorithms.
- Abstract(参考訳): 強化学習は住宅エネルギー管理、特にエネルギーコストの最適化に一般的に適用される。
しかしながら、RLエージェントは、特に確率的な報酬で、エネルギー制御領域における欺きやまばらな報酬を扱う際に、しばしば困難に直面する。
このような状況では、最適な政策を学ぶために徹底的な探索が不可欠となる。
残念なことに、探索メカニズムは偽りの報酬信号によって誤解され、徹底的な探索が困難になる。
Go-Exploreは、効率的な探索を実現するための計画手法と強化学習手法を組み合わせたアルゴリズムのファミリーである。
住宅エネルギー管理におけるコスト削減の課題をgo-exploreアルゴリズムを用いて解決し,よく知られた強化学習アルゴリズムと比較して最大19.84\%の改善を実現する。
関連論文リスト
- Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。
RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。
AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - Optimization Algorithms in Smart Grids: A Systematic Literature Review [4.301367153728695]
本稿では,国内・産業分野におけるスマートグリッドの新たな特徴と応用について述べる。
具体的には、遺伝的アルゴリズム、Particle Swarm Optimization、Grey Wolf Optimizationに焦点を当てた。
論文 参考訳(メタデータ) (2023-01-16T12:31:06Z) - Optimal Planning of Hybrid Energy Storage Systems using Curtailed
Renewable Energy through Deep Reinforcement Learning [0.0]
エネルギー貯蔵システム(ESS)を計画するためのポリシーに基づくアルゴリズムを用いた高度な深層強化学習手法を提案する。
定量的性能比較の結果、DRLエージェントはシナリオベース最適化(SO)アルゴリズムよりも優れていた。
その結果、DRLエージェントは人間の専門家が行うように学習し、提案手法の信頼性が示唆された。
論文 参考訳(メタデータ) (2022-12-12T02:24:50Z) - Flexible Attention-Based Multi-Policy Fusion for Efficient Deep
Reinforcement Learning [78.31888150539258]
強化学習(RL)エージェントは、長い間、人間の学習の効率にアプローチしようとしてきた。
RLにおける以前の研究は、エージェントがサンプル効率を改善するために外部知識ポリシーを取り入れていた。
我々は,複数の知識ポリシーを融合させたRLパラダイムであるKGRL(Knowledge-Grounded RL)について述べる。
論文 参考訳(メタデータ) (2022-10-07T17:56:57Z) - Intrinsically-Motivated Reinforcement Learning: A Brief Introduction [0.0]
強化学習(Reinforcement Learning, RL)は、機械学習の3つの基本パラダイムの1つである。
本稿では,RLにおける探査改善の問題点を考察し,本質的な動機付け型RLを導入した。
論文 参考訳(メタデータ) (2022-03-03T12:39:58Z) - Follow your Nose: Using General Value Functions for Directed Exploration
in Reinforcement Learning [5.40729975786985]
本稿では,汎用価値関数(GVF)と有向探索戦略を用いて,探索と補助的タスク学習を組み合わせることを提案する。
3つのナビゲーションタスクにおいて、手作業ではなく選択肢(アクションのシーケンス)を学習し、パフォーマンス上の優位性を実証する簡単な方法を提供する。
論文 参考訳(メタデータ) (2022-03-02T05:14:11Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - BeBold: Exploration Beyond the Boundary of Explored Regions [66.88415950549556]
本稿では,本質的報酬(IR)の簡便かつ効果的な基準として,逆訪問回数の規制的差異を提案する。
この基準は、エージェントが探索された地域の境界を越えて探索し、短視力や分離などのカウントベースの方法の一般的な問題を緩和するのに役立ちます。
その結果得られたBeBoldは、MiniGridの12の最も難しい手続き的タスクを、カリキュラムの学習なしにわずか120万の環境ステップで解決する。
論文 参考訳(メタデータ) (2020-12-15T21:26:54Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。