論文の概要: Hybrid Energy-Aware Reward Shaping: A Unified Lightweight Physics-Guided Methodology for Policy Optimization
- arxiv url: http://arxiv.org/abs/2603.11600v1
- Date: Thu, 12 Mar 2026 06:47:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.930964
- Title: Hybrid Energy-Aware Reward Shaping: A Unified Lightweight Physics-Guided Methodology for Policy Optimization
- Title(参考訳): ハイブリッドエネルギー・アウェア・リワード整形:政策最適化のための統一軽量物理誘導手法
- Authors: Qijun Liao, Jue Yang, Yiting Kang, Xinxin Zhao, Yong Zhang, Mingan Zhao,
- Abstract要約: 本研究では,Hybrid Energy-Aware Reward Shaping (H-EARS)を提案する。
H-EARSは、機能的分解によってタスク固有ポテンシャルとエネルギーベースポテンシャルのバランスを保ちながら行動の規模を制限し、フルダイナミックスなしで支配的なエネルギー成分を捕獲することで線形複雑性O(n)を達成する。
- 参考スコア(独自算出の注目度): 5.113139063969333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning excels in continuous control but often requires extensive exploration, while physics-based models demand complete equations and suffer cubic complexity. This study proposes Hybrid Energy-Aware Reward Shaping (H-EARS), unifying potential-based reward shaping with energy-aware action regularization. H-EARS constrains action magnitude while balancing task-specific and energy-based potentials via functional decomposition, achieving linear complexity O(n) by capturing dominant energy components without full dynamics. We establish a theoretical foundation including: (1) functional independence for separate task/energy optimization; (2) energy-based convergence acceleration; (3) convergence guarantees under function approximation; and (4) approximate potential error bounds. Lyapunov stability connections are analyzed as heuristic guides. Experiments across baselines show improved convergence, stability, and energy efficiency. Vehicle simulations validate applicability in safety-critical domains under extreme conditions. Results confirm that integrating lightweight physics priors enhances model-free RL without complete system models, enabling transfer from lab research to industrial applications.
- Abstract(参考訳): 深い強化学習は連続的な制御に優れるが、しばしば広範な探索を必要とするが、物理学に基づくモデルは完全な方程式を必要とし、立方体的な複雑さに悩まされる。
本研究では,Hybrid Energy-Aware Reward Shaping (H-EARS)を提案する。
H-EARSは、機能的分解によってタスク固有ポテンシャルとエネルギーベースポテンシャルのバランスを保ちながら行動の規模を制限し、フルダイナミックスなしで支配的なエネルギー成分を捕獲することで線形複雑性O(n)を達成する。
我々は,(1)タスク/エネルギー最適化の独立性,(2)エネルギーベースの収束促進,(3)関数近似の下での収束保証,(4)近似ポテンシャル誤差境界を含む理論的基盤を確立する。
リャプノフ安定性接続はヒューリスティックガイドとして解析される。
ベースラインにわたる実験では、収束性、安定性、エネルギー効率が改善された。
車両シミュレーションは、極端な条件下での安全クリティカルドメインの適用性を検証する。
実験結果から, 実験室研究から産業応用への移行を可能にするため, システムモデルが完全でなくても, モデルフリーのRLが向上することが確認された。
関連論文リスト
- Equivariant Evidential Deep Learning for Interatomic Potentials [55.6997213490859]
不確かさの定量化は、分子動力学シミュレーションにおける機械学習の原子間ポテンシャルの信頼性を評価するために重要である。
既存のMLIPのUQアプローチは、高い計算コストや準最適性能によって制限されることが多い。
我々は,原子間ポテンシャルの定量的深層学習(texte2$IP)を提案する。
論文 参考訳(メタデータ) (2026-02-11T02:00:25Z) - Elign: Equivariant Diffusion Model Alignment from Foundational Machine Learning Force Fields [7.740456623132954]
両コストを償却するポストトレーニングフレームワークであるElignを紹介します。
我々は、高価なDFT評価を、より高速で事前訓練された基礎学習力場に置き換える。
実験により、エリーンは安定性を改善しつつ、より低い金標準のDFTエネルギーと力でコンフォメーションを生成することが示された。
論文 参考訳(メタデータ) (2026-01-29T17:00:09Z) - Rediscovering Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning [55.59724323303857]
本稿では,3つのコンポーネントによる探索と利用のバランスをとるフレームワークを提案する。
複数の数学的推論ベンチマークの実験は、AERが一貫してベースラインを上回り、推論精度と探索能力の両方を改善していることを示している。
論文 参考訳(メタデータ) (2025-10-13T03:10:26Z) - Study Design and Demystification of Physics Informed Neural Networks for Power Flow Simulation [2.3641090634080064]
電力フローシミュレータは、実装前の潜在的な動作を評価することで演算子をサポートするために一般的に使用される。
従来の物理ソルバは正確だが、ほぼリアルタイムで使うには遅すぎることが多い。
機械学習モデルは高速サロゲートとして登場し、物理法則への準拠を改善する。
本稿では, 物理的制約を正規化用語として組み込んだり, 教師なしの損失から, ハイブリダイゼーション戦略をデミスティフィケートするためのアブレーション研究について述べる。
論文 参考訳(メタデータ) (2025-09-23T16:55:13Z) - PowerGrow: Feasible Co-Growth of Structures and Dynamics for Power Grid Synthesis [75.14189839277928]
本稿では,運用効率を維持しながら計算オーバーヘッドを大幅に削減する,共同生成フレームワークPowerGrowを提案する。
ベンチマーク設定による実験では、PowerGrowはフィデリティと多様性において、事前の拡散モデルよりも優れていた。
これは、運用上有効で現実的な電力グリッドシナリオを生成する能力を示している。
論文 参考訳(メタデータ) (2025-08-29T01:47:27Z) - Forecasting Continuous Non-Conservative Dynamical Systems in SO(3) [51.510040541600176]
コンピュータビジョンにおける移動物体の回転をモデル化するための新しい手法を提案する。
我々のアプローチは、入力ノイズに対して頑健でありながら、エネルギーと運動量保存に非依存である。
トレーニング中の雑音状態から物体のダイナミクスを近似させることで、シミュレーションや様々な現実世界の設定において頑健な外挿能力が得られる。
論文 参考訳(メタデータ) (2025-08-11T09:03:10Z) - Multi-fidelity Reinforcement Learning Control for Complex Dynamical Systems [42.2790464348673]
複雑なシステムの不安定性を制御するための多要素強化学習フレームワークを提案する。
提案手法が物理学における2つの複雑な力学に与える影響を実証する。
論文 参考訳(メタデータ) (2025-04-08T00:50:15Z) - Input-to-State Stable Coupled Oscillator Networks for Closed-form Model-based Control in Latent Space [2.527926867319859]
我々は、制御理論の文献から強力でよく理解された閉形式戦略を活用することが有望な道であると論じる。
既存の潜在空間モデルにおける3つの根本的な欠点は、これまでこの強力な組み合わせを妨げてきた。
これらすべての問題に同時に取り組む新しい結合ネットワーク(CON)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-13T00:11:09Z) - Method of spectral Green functions in driven open quantum dynamics [77.34726150561087]
オープン量子力学のシミュレーションのために,スペクトルグリーン関数に基づく新しい手法を提案する。
この形式主義は、場の量子論におけるグリーン関数の使用と顕著な類似性を示している。
本手法は,完全マスター方程式の解法に基づくシミュレーションと比較して計算コストを劇的に削減する。
論文 参考訳(メタデータ) (2020-06-04T09:41:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。