論文の概要: Winning the CityLearn Challenge: Adaptive Optimization with Evolutionary
Search under Trajectory-based Guidance
- arxiv url: http://arxiv.org/abs/2212.01939v1
- Date: Sun, 4 Dec 2022 22:18:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 15:29:03.954372
- Title: Winning the CityLearn Challenge: Adaptive Optimization with Evolutionary
Search under Trajectory-based Guidance
- Title(参考訳): CityLearn Challengeに勝つ: 軌道に基づく誘導による進化探索による適応最適化
- Authors: Vanshaj Khattar and Ming Jin
- Abstract要約: 本稿では,最適化の解関数をポリシーとして利用して,逐次的意思決定のための行動を計算する手法を提案する。
我々のエージェントは2021年のCityLearn Challengeでトップにランクインし、ほぼすべての指標において優れたパフォーマンスを実現しました。
- 参考スコア(独自算出の注目度): 2.4476800587391234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern power systems will have to face difficult challenges in the years to
come: frequent blackouts in urban areas caused by high power demand peaks, grid
instability exacerbated by intermittent renewable generation, and global
climate change amplified by rising carbon emissions. While current practices
are growingly inadequate, the path to widespread adoption of artificial
intelligence (AI) methods is hindered by missing aspects of trustworthiness.
The CityLearn Challenge is an exemplary opportunity for researchers from
multiple disciplines to investigate the potential of AI to tackle these
pressing issues in the energy domain, collectively modeled as a reinforcement
learning (RL) task. Multiple real-world challenges faced by contemporary RL
techniques are embodied in the problem formulation. In this paper, we present a
novel method using the solution function of optimization as policies to compute
actions for sequential decision-making, while notably adapting the parameters
of the optimization model from online observations. Algorithmically, this is
achieved by an evolutionary algorithm under a novel trajectory-based guidance
scheme. Formally, the global convergence property is established. Our agent
ranked first in the latest 2021 CityLearn Challenge, being able to achieve
superior performance in almost all metrics while maintaining some key aspects
of interpretability.
- Abstract(参考訳): 電力需要のピークによる都市部での頻繁な停電、断続的な再生可能エネルギー発生によるグリッド不安定化、二酸化炭素排出量の増加による世界的な気候変動などだ。
現在のプラクティスはますます不十分になっているが、人工知能(AI)メソッドの普及への道は、信頼性の欠如によって妨げられている。
CityLearn Challengeは、複数の分野の研究者が、エネルギー領域におけるこれらのプレッシャー問題に取り組むAIの可能性を調べるための模範的な機会であり、総合的に強化学習(RL)タスクとしてモデル化されている。
現代のRL技術が直面する現実的な課題は、問題の定式化に具体化されている。
本稿では,オンライン観察から最適化モデルのパラメータを適応しつつ,逐次意思決定のためのアクションを計算するためのポリシーとして最適化の解関数を用いる新しい手法を提案する。
アルゴリズム上、これは新しい軌道に基づく誘導法の下で進化的アルゴリズムによって達成される。
正式には、グローバル収束特性が確立される。
当社のエージェントは,2021年のcitylearn challengeで第1位にランクインし,解釈可能性の重要な面を維持しながら,ほぼすべての指標で優れたパフォーマンスを達成できた。
関連論文リスト
- Towards Sample-Efficiency and Generalization of Transfer and Inverse Reinforcement Learning: A Comprehensive Literature Review [50.67937325077047]
本稿では,転送および逆強化学習(T-IRL)によるRLアルゴリズムのサンプル効率と一般化を実現するための総合的なレビューを行う。
以上の結果から,最近の研究成果の大部分は,人間のループとシム・トゥ・リアル戦略を活用することで,上記の課題に対処していることが示唆された。
IRL構造の下では、経験の少ない移行と、そのようなフレームワークのマルチエージェントおよびマルチインテンション問題への拡張を必要とするトレーニングスキームが近年研究者の優先事項となっている。
論文 参考訳(メタデータ) (2024-11-15T15:18:57Z) - Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - Efficient Imitation Learning with Conservative World Models [54.52140201148341]
報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。
純粋な強化学習ではなく、微調整問題として模倣学習を再構成する。
論文 参考訳(メタデータ) (2024-05-21T20:53:18Z) - Learning fast changing slow in spiking neural networks [3.069335774032178]
強化学習(Reinforcement Learning, RL)は、実生活問題に適用する際の課題である。
生涯学習機械は可塑性安定パラドックスを解決しなければならない。
新たな知識の獲得と安定性の維持のバランスを取ることは、人工エージェントにとって不可欠である。
論文 参考訳(メタデータ) (2024-01-25T12:03:10Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Self-Sustaining Multiple Access with Continual Deep Reinforcement
Learning for Dynamic Metaverse Applications [17.436875530809946]
Metaverseは,さまざまな世界で構成される仮想環境の構築を目的とした,新たなパラダイムだ。
このような動的で複雑なシナリオに対処するためには、自己維持戦略を採用する方法が考えられる。
本稿では,知的エージェントのスループットを最大化するために,マルチチャネル環境におけるマルチアクセスの問題について検討する。
論文 参考訳(メタデータ) (2023-09-18T22:02:47Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Reinforcement Learning-Empowered Mobile Edge Computing for 6G Edge
Intelligence [76.96698721128406]
モバイルエッジコンピューティング(MEC)は、第5世代(5G)ネットワークなどにおける計算と遅延に敏感なタスクのための新しいパラダイムであると考えた。
本稿では、フリー対応RLに関する総合的な研究レビューと、開発のための洞察を提供する。
論文 参考訳(メタデータ) (2022-01-27T10:02:54Z) - First Responders Got Wings: UAVs to the Rescue of Localization
Operations in Beyond 5G Systems [7.244860161025552]
無人航空機(UAV)ベースのソリューションは、ローカライゼーションの課題に挑戦する最も有望な候補である。
本稿では,最先端技術のローカライゼーション性能を高めるための主な課題と今後の機会に光を当てることにより,最近利用可能な技術を活用する。
論文 参考訳(メタデータ) (2021-09-07T16:19:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。