論文の概要: BEAVER: Building Environments with Assessable Variation for Evaluating Multi-Objective Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.07769v1
- Date: Thu, 10 Jul 2025 13:54:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.425024
- Title: BEAVER: Building Environments with Assessable Variation for Evaluating Multi-Objective Reinforcement Learning
- Title(参考訳): BEAVER:多目的強化学習評価のための評価可能な変動のある環境の構築
- Authors: Ruohong Liu, Jack Umenberger, Yize Chen,
- Abstract要約: 制御タスク構築において、一般化可能な強化学習アルゴリズムの評価を容易にするための新しいベンチマークを開発する。
この結果から,既存の多目的RL法は相反する目的間の合理的なトレードオフを達成できることが示唆された。
- 参考スコア(独自算出の注目度): 4.342241136871849
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have seen significant advancements in designing reinforcement learning (RL)-based agents for building energy management. While individual success is observed in simulated or controlled environments, the scalability of RL approaches in terms of efficiency and generalization across building dynamics and operational scenarios remains an open question. In this work, we formally characterize the generalization space for the cross-environment, multi-objective building energy management task, and formulate the multi-objective contextual RL problem. Such a formulation helps understand the challenges of transferring learned policies across varied operational contexts such as climate and heat convection dynamics under multiple control objectives such as comfort level and energy consumption. We provide a principled way to parameterize such contextual information in realistic building RL environments, and construct a novel benchmark to facilitate the evaluation of generalizable RL algorithms in practical building control tasks. Our results show that existing multi-objective RL methods are capable of achieving reasonable trade-offs between conflicting objectives. However, their performance degrades under certain environment variations, underscoring the importance of incorporating dynamics-dependent contextual information into the policy learning process.
- Abstract(参考訳): 近年、エネルギー管理を構築するための強化学習(RL)ベースのエージェントの設計が大幅に進歩している。
シミュレーションや制御された環境では個々の成功が観察されるが、RLアプローチの効率性と、動的構築と運用シナリオにおける一般化のスケーラビリティは、依然として未解決の課題である。
本研究では,クロス環境,多目的建築エネルギー管理タスクの一般化空間を形式的に特徴付け,多目的文脈RL問題を定式化する。
このような定式化は、気候や熱対流のダイナミックスといった様々な運用状況において、快適度やエネルギー消費といった複数の制御目標の下で学習方針を伝達する際の課題を理解するのに役立つ。
本稿では,現実的な構築RL環境において,そのようなコンテキスト情報をパラメータ化し,実用的な構築制御タスクにおいて,一般化可能なRLアルゴリズムの評価を容易にするための新しいベンチマークを構築する。
この結果から,既存の多目的RL法は相反する目的間の合理的なトレードオフを達成できることが示唆された。
しかし、その性能は特定の環境変動の下で低下し、動的に依存した文脈情報を政策学習プロセスに組み込むことの重要性が強調される。
関連論文リスト
- MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - On Generalization Across Environments In Multi-Objective Reinforcement Learning [6.686583184622338]
我々は,多目的強化学習(MORL)における一般化の概念を定式化し,その評価方法について述べる。
パラメータ化された環境構成を持つ多目的ドメインを特徴とする新しいベンチマークを提案。
このベンチマークにおける最先端のMORLアルゴリズムのベースライン評価は、限定的な一般化能力を示し、改善の余地があることを示唆している。
論文 参考訳(メタデータ) (2025-03-02T08:50:14Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - A Multiobjective Reinforcement Learning Framework for Microgrid Energy Management [0.0]
マイクログリッド(MG)は、電力グリッドの脱炭と分散化のための有望なソリューションを提供する。
しかし、MGオペレーションは、しばしば、異なる利害関係者の利益を表す複数の目的について検討する。
本稿では,高次元目的空間を探索し,対立する目的間のトレードオフを明らかにする,多目的強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-17T17:52:57Z) - Variational Empowerment as Representation Learning for Goal-Based
Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。
我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文 参考訳(メタデータ) (2021-06-02T18:12:26Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Learning Robust State Abstractions for Hidden-Parameter Block MDPs [55.31018404591743]
我々は、ブロックMDPにインスパイアされた堅牢な状態抽象化を実現するために、HiP-MDP設定からの共通構造の概念を活用する。
マルチタスク強化学習 (MTRL) とメタ強化学習 (Meta-RL) の両方のための新しいフレームワークのインスタンス化を導出する。
論文 参考訳(メタデータ) (2020-07-14T17:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。