論文の概要: Higher-Order Action Regularization in Deep Reinforcement Learning: From Continuous Control to Building Energy Management
- arxiv url: http://arxiv.org/abs/2601.02061v1
- Date: Mon, 05 Jan 2026 12:35:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.121963
- Title: Higher-Order Action Regularization in Deep Reinforcement Learning: From Continuous Control to Building Energy Management
- Title(参考訳): 深層強化学習における高次行動規則化:連続制御から建築エネルギー管理へ
- Authors: Faizan Ahmed, Aniket Dixit, James Brusey,
- Abstract要約: 我々は高次微分ペナルティによる行動平滑性正規化を体系的に検討する。
我々の研究は、エネルギークリティカルなアプリケーションにおけるRL最適化と運用上の制約の間の効果的な橋渡しとして、高次行動正規化を確立している。
- 参考スコア(独自算出の注目度): 1.3891530345631953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning agents often exhibit erratic, high-frequency control behaviors that hinder real-world deployment due to excessive energy consumption and mechanical wear. We systematically investigate action smoothness regularization through higher-order derivative penalties, progressing from theoretical understanding in continuous control benchmarks to practical validation in building energy management. Our comprehensive evaluation across four continuous control environments demonstrates that third-order derivative penalties (jerk minimization) consistently achieve superior smoothness while maintaining competitive performance. We extend these findings to HVAC control systems where smooth policies reduce equipment switching by 60%, translating to significant operational benefits. Our work establishes higher-order action regularization as an effective bridge between RL optimization and operational constraints in energy-critical applications.
- Abstract(参考訳): 深層強化学習エージェントは、過度のエネルギー消費と機械的摩耗により現実世界の展開を妨げる不規則で高周波な制御行動を示すことが多い。
本研究では, 連続制御ベンチマークの理論的理解からエネルギー管理の実践的検証に至るまで, 高次微分法則による行動平滑性正規化を体系的に研究する。
4つの連続制御環境における包括的評価は, 競争性能を維持しつつ, 3次微分ペナルティ(ジェット最小化)が常に優れた滑らか性を実現することを示す。
我々はこれらの知見を、スムーズなポリシーによって機器の切り替えを60%削減し、運用上の大きな利点に変換するHVAC制御システムに拡張する。
我々の研究は、エネルギークリティカルなアプリケーションにおけるRL最適化と運用上の制約の間の効果的な橋渡しとして、高次行動正規化を確立している。
関連論文リスト
- Control of Rayleigh-Bénard Convection: Effectiveness of Reinforcement Learning in the Turbulent Regime [6.619254876970774]
乱流下での対流熱伝達低減のための強化学習(RL)の有効性について検討した。
単エージェントプロキシポリシー最適化(PPO)によって訓練されたRLエージェントは、線形比例微分(PD)コントローラと比較される。
RL剤は、ヌッセルト数によって測定された対流を、適度な乱流系では最大33%減らし、高乱流環境では10%減らした。
論文 参考訳(メタデータ) (2025-04-16T11:51:59Z) - Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。
検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文 参考訳(メタデータ) (2023-04-20T17:11:05Z) - Optimizing Industrial HVAC Systems with Hierarchical Reinforcement
Learning [1.7489518849687256]
産業用冷却システムの最適化のために強化学習技術が開発され、省エネが図られている。
産業制御における大きな課題は、機械の制約により現実世界で実現可能な学習行動である。
動作時間尺度に応じて動作のサブセットを制御する複数のエージェントによる階層的強化学習を使用する。
論文 参考訳(メタデータ) (2022-09-16T18:00:46Z) - Is Bang-Bang Control All You Need? Solving Continuous Control with
Bernoulli Policies [45.20170713261535]
我々は、訓練されたエージェントが、その空間の境界におけるアクションをしばしば好む現象を調査する。
通常のガウス分布を、各作用次元に沿った極性のみを考えるベルヌーイ分布に置き換える。
驚くべきことに、これはいくつかの継続的制御ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-11-03T22:45:55Z) - Enforcing Policy Feasibility Constraints through Differentiable
Projection for Energy Optimization [57.88118988775461]
本稿では,ニューラルポリシー内での凸操作制約を強制するために,PROF(Projected Feasibility)を提案する。
エネルギー効率の高い建築操作とインバータ制御の2つの応用についてPROFを実証する。
論文 参考訳(メタデータ) (2021-05-19T01:58:10Z) - Regularizing Action Policies for Smooth Control with Reinforcement
Learning [47.312768123967025]
Conditioning for Action Policy Smoothness(CAPS)は、アクションポリシーの効果的な直感的な正規化である。
capsは、ニューラルネットワークコントローラの学習状態-動作マッピングの滑らかさを一貫して改善する。
実システムでテストしたところ、クアドロタードローンのコントローラーの滑らかさが改善され、消費電力は80%近く削減された。
論文 参考訳(メタデータ) (2020-12-11T21:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。