Fugu-MT 論文翻訳(概要): PIRS: Physics-Informed Reward Shaping for SAC-Based Building Energy Management

論文の概要: PIRS: Physics-Informed Reward Shaping for SAC-Based Building Energy Management

arxiv url: http://arxiv.org/abs/2605.28232v1
Date: Wed, 27 May 2026 09:45:14 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-28 17:38:55.947761
Title: PIRS: Physics-Informed Reward Shaping for SAC-Based Building Energy Management
Title（参考訳）: PIRS:SACによるビルエネルギー管理のための物理インフォームド・リワード整形
Authors: Shadmehr Zaregarizi, Khashayar Yavari,
Abstract要約: 提案するPIRS (Physics-Informed Reward Shaping) は,ISO 7730 Predicted Mean Vote (PMV) の定式化により,アドホックな快適なプロキシを置き換える。 PMVの定式化において快適なシグナルを固定することにより、PIRSは報酬の解釈性を改善し、標準的グラウンドの快適なプロキシを提供する。 PIRSは、手動のベースラインと同等のコスト、炭素、電気の計測値を得ると同時に、非物理学的な地上設計を大幅に上回っている。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Occupant comfort and grid-aware energy efficiency are competing objectives whose joint optimization depends critically on how reward functions are specified in deep reinforcement learning (DRL) controllers for buildings. Yet reward design remains largely ad hoc: comfort terms are either hand-tuned heuristics or simple temperature-deviation proxies without explicit grounding in thermal-comfort physics. We present PIRS (Physics-Informed Reward Shaping), which replaces these ad-hoc comfort proxies with the ISO 7730 Predicted Mean Vote (PMV) formulation inside a weighted multi-objective reward for Soft Actor-Critic (SAC). By anchoring the comfort signal in the ISO 7730 PMV formulation, PIRS improves reward interpretability and provides a standards-grounded comfort proxy without changing any other component of the learning pipeline. We evaluate PIRS in CityLearn v2.1.2 (challenge 2022 phase 1) with a central SAC agent trained for 50k steps over five random seeds, and compare against a rule-based controller (RBC), a manually engineered reward (E2), an energy-only reward (E3), and a naive temperature-deviation comfort reward (E4). District-level key performance indicators (KPIs), reported as ratios versus RBC, show that PIRS attains cost, carbon, and electricity metrics on par with the manual baseline while substantially outperforming non-physics-grounded designs -- particularly on load ramping (1.78x vs. ~2.4x RBC) and daily peak demand. All DRL policies remain above RBC at this training budget; we interpret this gap honestly and position PIRS as an interpretable, standards-aligned foundation for reward design rather than a claim of dominance over classical control at limited compute.
Abstract（参考訳）: 作業の快適さとグリッド対応エネルギー効率は、建物の深部強化学習(DRL)制御における報酬関数の特定方法に大きく依存する競合対象である。快適な言葉は手動のヒューリスティックスか、熱-快適物理学の明確な根拠のない単純な温度差のプロキシである。そこで本研究では,これらのアドホックな快適なプロキシをISO 7730 Predicted Mean Vote (PMV) に置き換えたPIRS(Physics-Informed Reward Shaping)を,Soft Actor-Critic (SAC) の重み付けされた多目的報酬として提示する。 ISO 7730 PMVの定式化で快適なシグナルを固定することにより、PIRSは報酬の解釈性を改善し、学習パイプラインの他のコンポーネントを変更することなく標準となる快適なプロキシを提供する。今回,CityLearn v2.1.2 (Challenge 2022 phase 1) におけるPIRSを,5つのランダムシード上の50kステップのSACエージェントを用いて評価し,ルールベースコントローラ(RBC),手作業による報酬(E2),エネルギのみの報酬(E3),ナイーブ温度緩和報酬(E4)と比較した。 RBC比として報告されている地域レベルのキーパフォーマンス指標(KPIs)は、PIRSが手動ベースラインと同等のコスト、炭素、電気のメトリクスを達成し、特に負荷上昇(1.78倍対約2.4倍のRBC)と日々のピーク需要で、非物理学的な設計を大幅に上回っていることを示している。この訓練予算において、全てのDRLポリシーはRBCより上であり、我々はこのギャップを誠実に解釈し、PIRSを限定された計算における古典的な制御に対する支配の主張よりも、報酬設計の解釈可能な標準に準拠した基盤として位置づけている。

関連論文リスト

Rethinking Rubric Generation for Improving LLM Judge and Reward Modeling for Open-ended Tasks [17.117706938140078]
本稿では,分解フィルタサイクル上に構築された潤滑精製の原理的フレームワークRDを提案する。 RRDは粗いルブリックをきめ細かな識別基準に分解し、カバー範囲を広げ、応答間の分離を鋭くする。評価とトレーニングの両方で、大きく、一貫した利益をもたらします。
論文参考訳（メタデータ） (2026-02-04T23:16:09Z)
ARISE: Adaptive Reinforcement Integrated with Swarm Exploration [0.0]
ARISEは強化学習を強化する軽量フレームワークである。政策行動と、各粒子が候補となる政策軌道を表す粒子駆動の提案をブレンドする。 ARISEはより困難なタスクでかなりの利益を得る。
論文参考訳（メタデータ） (2026-01-02T14:09:22Z)
Enhancing Agentic RL with Progressive Reward Shaping and Value-based Sampling Policy Optimization [13.475938754147625]
Tool-Integrated Reasoning (TIR)で強化されたLarge Language Models (LLM)は、反復的に計画し、外部ツールを呼び、返却された情報を統合して、複雑な長期的推論タスクを解決する。エージェント強化学習(Agentic RL)は、ツール・インタラクションの完全な軌跡よりも、そのようなモデルを最適化する。 1)バイナリ0-1検証信号のようなスパースで非インストラクティブな報酬は、中間ステップの限られたガイダンスと緩やかな収束を与える。本稿では,PRS(Progressive Reward Shaping)とVSPO(Value-based Sampling Policy Optimization)の2つの補完手法を提案する。
論文参考訳（メタデータ） (2025-12-08T11:59:25Z)
PaTaRM: Bridging Pairwise and Pointwise Signals via Preference-Aware Task-Adaptive Reward Modeling [19.258007121955924]
Preference-Aware Task-Aware Reward Model (PaTaRM) は、Rest-Aware rewardメカニズムと動的ルーリック適応を統合した統合フレームワークである。 PaTaRMは、IFEvalとInFoBenchベンチマークで平均13.6%改善され、下流RLHFのパフォーマンスが向上する。
論文参考訳（メタデータ） (2025-10-28T09:43:47Z)
SPARK: Synergistic Policy And Reward Co-Evolving Framework [84.22494672256894]
我々は、RLVR上に構築された効率的でオン・ポリティクス、安定した手法であるSPARK(Synergistic Policy and Reward Co-Evolving Framework)を紹介する。ロールアウトと正確性データを捨てる代わりに、SPARKはこの貴重な情報をリサイクルし、生成的報酬モデルとしてモデル自体をトレーニングする。 SPARK は複数の LLM モデルと LVLM モデル,および複数の推論,報酬モデル,一般ベンチマークにおいて,大幅な性能向上を実現していることを示す。
論文参考訳（メタデータ） (2025-09-26T17:50:12Z)
Pre-Trained Policy Discriminators are General Reward Models [81.3974586561645]
政策差別学習(POLAR)という,スケーラブルな事前学習手法を提案する。 POLARは報酬モデル(RM)を訓練し、同一のポリシーを識別し、異なるポリシーを識別する。実証実験の結果、POLARは従来の非事前学習法よりも大幅に優れていた。
論文参考訳（メタデータ） (2025-07-07T16:56:31Z)
ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs [75.72672339168092]
本稿では,新しいトラジェクトリ対応PRMであるReasonFlux-PRMを紹介し,トラジェクトリ応答型推論トレースの評価を行う。 ReasonFlux-PRMはステップレベルとトラジェクトリレベルの両方の監視機能を備えており、構造化された連鎖データと整合した微粒な報酬割り当てを可能にする。得られたReasonFlux-PRM-7Bは、教師付き微調整で平均12.1%、強化学習で4.5%、テスト時間スケーリングで6.3%向上した。
論文参考訳（メタデータ） (2025-06-23T17:59:02Z)
GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。 SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文参考訳（メタデータ） (2025-06-19T08:49:13Z)
REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。