Fugu-MT 論文翻訳(概要): Winning the CityLearn Challenge: Adaptive Optimization with Evolutionary Search under Trajectory-based Guidance

論文の概要: Winning the CityLearn Challenge: Adaptive Optimization with Evolutionary Search under Trajectory-based Guidance

arxiv url: http://arxiv.org/abs/2212.01939v1
Date: Sun, 4 Dec 2022 22:18:38 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-06 15:29:03.954372
Title: Winning the CityLearn Challenge: Adaptive Optimization with Evolutionary Search under Trajectory-based Guidance
Title（参考訳）: CityLearn Challengeに勝つ: 軌道に基づく誘導による進化探索による適応最適化
Authors: Vanshaj Khattar and Ming Jin
Abstract要約: 本稿では,最適化の解関数をポリシーとして利用して,逐次的意思決定のための行動を計算する手法を提案する。我々のエージェントは2021年のCityLearn Challengeでトップにランクインし、ほぼすべての指標において優れたパフォーマンスを実現しました。
参考スコア（独自算出の注目度）: 2.4476800587391234
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Modern power systems will have to face difficult challenges in the years to come: frequent blackouts in urban areas caused by high power demand peaks, grid instability exacerbated by intermittent renewable generation, and global climate change amplified by rising carbon emissions. While current practices are growingly inadequate, the path to widespread adoption of artificial intelligence (AI) methods is hindered by missing aspects of trustworthiness. The CityLearn Challenge is an exemplary opportunity for researchers from multiple disciplines to investigate the potential of AI to tackle these pressing issues in the energy domain, collectively modeled as a reinforcement learning (RL) task. Multiple real-world challenges faced by contemporary RL techniques are embodied in the problem formulation. In this paper, we present a novel method using the solution function of optimization as policies to compute actions for sequential decision-making, while notably adapting the parameters of the optimization model from online observations. Algorithmically, this is achieved by an evolutionary algorithm under a novel trajectory-based guidance scheme. Formally, the global convergence property is established. Our agent ranked first in the latest 2021 CityLearn Challenge, being able to achieve superior performance in almost all metrics while maintaining some key aspects of interpretability.
Abstract（参考訳）: 電力需要のピークによる都市部での頻繁な停電、断続的な再生可能エネルギー発生によるグリッド不安定化、二酸化炭素排出量の増加による世界的な気候変動などだ。現在のプラクティスはますます不十分になっているが、人工知能(AI)メソッドの普及への道は、信頼性の欠如によって妨げられている。 CityLearn Challengeは、複数の分野の研究者が、エネルギー領域におけるこれらのプレッシャー問題に取り組むAIの可能性を調べるための模範的な機会であり、総合的に強化学習(RL)タスクとしてモデル化されている。現代のRL技術が直面する現実的な課題は、問題の定式化に具体化されている。本稿では,オンライン観察から最適化モデルのパラメータを適応しつつ,逐次意思決定のためのアクションを計算するためのポリシーとして最適化の解関数を用いる新しい手法を提案する。アルゴリズム上、これは新しい軌道に基づく誘導法の下で進化的アルゴリズムによって達成される。正式には、グローバル収束特性が確立される。当社のエージェントは,2021年のcitylearn challengeで第1位にランクインし,解釈可能性の重要な面を維持しながら,ほぼすべての指標で優れたパフォーマンスを達成できた。

関連論文リスト

AdaEvolve: Adaptive LLM Driven Zeroth-Order Optimization [61.535567824938205]
本稿では,LLMによる進化を階層的適応最適化問題として再構成するフレームワークであるAdaEvolveを紹介する。 AdaEvolveは185の異なるオープンエンド最適化問題において、オープンエンドベースラインを一貫して上回っている。
論文参考訳（メタデータ） (2026-02-23T18:45:31Z)
Discovering Multiagent Learning Algorithms with Large Language Models [8.649235365712004]
我々は,大規模言語モデルを用いた進化的符号化エージェントであるAlphaEvolveを用いて,新しいマルチエージェント学習アルゴリズムを自動発見する。ゲーム理論学習の2つの異なるパラダイムのための新しい変種を進化させることにより、この枠組みの一般化を実証する。
論文参考訳（メタデータ） (2026-02-18T22:41:00Z)
POPE: Learning to Reason on Hard Problems via Privileged On-Policy Exploration [78.9858758758376]
On-policy Reinforcement Learning (RL)は、単一の正しいロールアウトでさえも探索せず、報酬はゼロであり、改善を促進するための学習信号がない。 PPE(Privleged On-Policy Exploration)は、人間や他のオラクルのソリューションを特権情報として活用し、難しい問題の探索をガイドする手法である。 POPEは、オラクルソリューションのプレフィックスで難しい問題を強化し、ガイド付きロールアウト中にRLが非ゼロ報酬を得ることを可能にする。
論文参考訳（メタデータ） (2026-01-26T18:47:21Z)
From Turbulence to Tranquility: AI-Driven Low-Altitude Network [17.660082508775957]
低高度経済(LAE)ネットワークは、都市移動、緊急対応、航空ロジスティクスにおいてトランスフォーメーションの可能性を秘めている。これらのネットワークは、スペクトル管理、干渉緩和、動的およびリソース制約された環境におけるリアルタイム調整において重大な課題に直面している。本研究では、機械学習に基づくスペクトルセンシングと共存、人工知能(AI)最適化資源割り当てと軌道計画、テストベッド駆動検証と標準化の3つの要素を探索する。
論文参考訳（メタデータ） (2025-06-02T07:12:44Z)
Parameter-Efficient Continual Fine-Tuning: A Survey [5.59258786465086]
AIの次のブレークスルーは、進化する環境への効率的な適応を可能にすることです。これらの大規模モデルを効率的に適応させる方法の1つが知られている。 PEFT(Efficient Fine-Tuning)
論文参考訳（メタデータ） (2025-04-18T17:51:51Z)
Deep Reinforcement Learning for Day-to-day Dynamic Tolling in Tradable Credit Schemes [4.844463457863053]
トレーダブル・クレジット・スキーム(TCS)は、混雑価格の代替としてますます研究されている。将来の設計と実装を支援するためのTCSのモデリングは、ユーザと市場の振る舞い、需要供給ダイナミクス、制御メカニズムに関わる課題と関連している。
論文参考訳（メタデータ） (2025-04-10T19:04:28Z)
Towards Sample-Efficiency and Generalization of Transfer and Inverse Reinforcement Learning: A Comprehensive Literature Review [50.67937325077047]
本稿では,転送および逆強化学習(T-IRL)によるRLアルゴリズムのサンプル効率と一般化を実現するための総合的なレビューを行う。以上の結果から,最近の研究成果の大部分は,人間のループとシム・トゥ・リアル戦略を活用することで,上記の課題に対処していることが示唆された。 IRL構造の下では、経験の少ない移行と、そのようなフレームワークのマルチエージェントおよびマルチインテンション問題への拡張を必要とするトレーニングスキームが近年研究者の優先事項となっている。
論文参考訳（メタデータ） (2024-11-15T15:18:57Z)
Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文参考訳（メタデータ） (2024-05-30T23:20:23Z)
Efficient Imitation Learning with Conservative World Models [54.52140201148341]
報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。純粋な強化学習ではなく、微調整問題として模倣学習を再構成する。
論文参考訳（メタデータ） (2024-05-21T20:53:18Z)
Learning fast changing slow in spiking neural networks [3.069335774032178]
強化学習(Reinforcement Learning, RL)は、実生活問題に適用する際の課題である。生涯学習機械は可塑性安定パラドックスを解決しなければならない。新たな知識の獲得と安定性の維持のバランスを取ることは、人工エージェントにとって不可欠である。
論文参考訳（メタデータ） (2024-01-25T12:03:10Z)
Hybrid Reinforcement Learning for Optimizing Pump Sustainability in Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文参考訳（メタデータ） (2023-10-13T21:26:16Z)
Self-Sustaining Multiple Access with Continual Deep Reinforcement Learning for Dynamic Metaverse Applications [17.436875530809946]
Metaverseは,さまざまな世界で構成される仮想環境の構築を目的とした,新たなパラダイムだ。このような動的で複雑なシナリオに対処するためには、自己維持戦略を採用する方法が考えられる。本稿では,知的エージェントのスループットを最大化するために,マルチチャネル環境におけるマルチアクセスの問題について検討する。
論文参考訳（メタデータ） (2023-09-18T22:02:47Z)
MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文参考訳（メタデータ） (2023-02-02T18:27:20Z)
Reinforcement Learning-Empowered Mobile Edge Computing for 6G Edge Intelligence [76.96698721128406]
モバイルエッジコンピューティング(MEC)は、第5世代(5G)ネットワークなどにおける計算と遅延に敏感なタスクのための新しいパラダイムであると考えた。本稿では、フリー対応RLに関する総合的な研究レビューと、開発のための洞察を提供する。
論文参考訳（メタデータ） (2022-01-27T10:02:54Z)
First Responders Got Wings: UAVs to the Rescue of Localization Operations in Beyond 5G Systems [7.244860161025552]
無人航空機(UAV)ベースのソリューションは、ローカライゼーションの課題に挑戦する最も有望な候補である。本稿では,最先端技術のローカライゼーション性能を高めるための主な課題と今後の機会に光を当てることにより,最近利用可能な技術を活用する。
論文参考訳（メタデータ） (2021-09-07T16:19:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。