論文の概要: Physics Informed Viscous Value Representations
- arxiv url: http://arxiv.org/abs/2602.23280v1
- Date: Thu, 26 Feb 2026 17:53:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.824141
- Title: Physics Informed Viscous Value Representations
- Title(参考訳): 物理インフォームド粘性値表現
- Authors: Hrishikesh Viswanath, Juanwu Lu, S. Talha Bukhari, Damon Conover, Ziran Wang, Aniket Bera,
- Abstract要約: ハミルトン-ヤコビ-ベルヒケマン方程式の粘性解の物理インフォームド正規化を提案する。
提案手法は,最適制御理論の学習過程を基礎として,値反復中の更新を明示的に正規化し,バウンダリングする。
実験により, この手法は幾何整合性を向上し, ナビゲーションや高次元複雑な操作に広く適用可能であることが示された。
- 参考スコア(独自算出の注目度): 18.60946729267083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline goal-conditioned reinforcement learning (GCRL) learns goal-conditioned policies from static pre-collected datasets. However, accurate value estimation remains a challenge due to the limited coverage of the state-action space. Recent physics-informed approaches have sought to address this by imposing physical and geometric constraints on the value function through regularization defined over first-order partial differential equations (PDEs), such as the Eikonal equation. However, these formulations can often be ill-posed in complex, high-dimensional environments. In this work, we propose a physics-informed regularization derived from the viscosity solution of the Hamilton-Jacobi-Bellman (HJB) equation. By providing a physics-based inductive bias, our approach grounds the learning process in optimal control theory, explicitly regularizing and bounding updates during value iterations. Furthermore, we leverage the Feynman-Kac theorem to recast the PDE solution as an expectation, enabling a tractable Monte Carlo estimation of the objective that avoids numerical instability in higher-order gradients. Experiments demonstrate that our method improves geometric consistency, making it broadly applicable to navigation and high-dimensional, complex manipulation tasks. Open-source codes are available at https://github.com/HrishikeshVish/phys-fk-value-GCRL.
- Abstract(参考訳): オフライン目標条件強化学習(GCRL)は、静的プレコンパイルデータセットから目標条件付きポリシーを学習する。
しかし、状態-作用空間の範囲が限られているため、正確な値推定は依然として課題である。
近年の物理学インフォームドアプローチは、アイコン方程式のような一階偏微分方程式(PDE)上で定義される正則化を通じて、値関数に物理的および幾何学的制約を課すことによって、この問題に対処しようとしている。
しかし、これらの定式化はしばしば複雑で高次元の環境で悪用される。
本研究ではハミルトン・ヤコビ・ベルマン方程式(HJB)の粘性解から導かれる物理インフォームド正規化を提案する。
物理に基づく帰納バイアスを提供することにより、我々のアプローチは、最適制御理論における学習プロセスの基礎となり、値反復中の更新を明示的に正規化し、バウンディングする。
さらに、ファインマン・カックの定理を利用して、PDE解を期待値として再キャストし、高階勾配の数値不安定性を回避するために、モンテカルロの抽出可能な推定を可能にする。
実験により, この手法は幾何整合性を向上し, ナビゲーションや高次元複雑な操作に広く適用可能であることが示された。
オープンソースコードはhttps://github.com/HrishikeshVish/phys-fk-value-GCRLで公開されている。
関連論文リスト
- Physics-informed neural particle flow for the Bayesian update step [0.8220217498103312]
本稿では,物理インフォームド・ニューラル粒子フローを提案する。
制御偏微分方程式(PDE)を損失関数に埋め込むことで、ニューラルネットワークをトレーニングして輸送速度場を近似する。
ニューラルネットワークのパラメータ化は暗黙の正則化器として機能し,解析フローに固有の剛性を緩和することを示した。
論文 参考訳(メタデータ) (2026-02-26T15:10:45Z) - Hybrid Generative Modeling for Incomplete Physics: Deep Grey-Box Meets Optimal Transport [48.06072022424773]
多くの実世界の系は、方程式の欠落や未知の項にのみ記述される。
これにより、物理モデルの分布は真のデータ生成過程(DGP)とは異なる。
非完全物理モデルを強化するために, 深層グレーボックスモデルと最適輸送法を組み合わせた新しいハイブリッド生成モデルを提案する。
論文 参考訳(メタデータ) (2025-06-27T13:23:27Z) - An Empirical Risk Minimization Approach for Offline Inverse RL and Dynamic Discrete Choice Model [8.95720650633184]
機械学習において、動的選択(DDC)モデル(オフライン最大エントロピー正規化逆強化学習(オフラインMaxEnt-IRL))を推定する問題について検討する。
目的は、オフラインの振舞いデータからエージェントの振舞いを管理する$Q*$関数をリカバリすることである。
線形パラメータ化報酬の制限的仮定を使わずにこれらの問題を解くための大域収束勾配法を提案する。
論文 参考訳(メタデータ) (2025-02-19T22:22:20Z) - Benign overfitting in Fixed Dimension via Physics-Informed Learning with Smooth Inductive Bias [8.668428992331808]
我々は,線形逆問題に対処する際,カーネルリッジ(レス)回帰のためのソボレフノルム学習曲線を開発した。
この結果から, 逆問題におけるPDE演算子は分散を安定化し, 固定次元問題に対して良性オーバーフィッティングを行うことが可能であることがわかった。
論文 参考訳(メタデータ) (2024-06-13T14:54:30Z) - Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Learning Neural Constitutive Laws From Motion Observations for
Generalizable PDE Dynamics [97.38308257547186]
多くのNNアプローチは、支配的PDEと物質モデルの両方を暗黙的にモデル化するエンドツーエンドモデルを学ぶ。
PDEの管理はよく知られており、学習よりも明示的に実施されるべきである、と私たちは主張する。
そこで我々は,ネットワークアーキテクチャを利用したニューラル構成則(Neural Constitutive Laws,NCLaw)と呼ばれる新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2023-04-27T17:42:24Z) - A Physics-informed Deep Learning Approach for Minimum Effort Stochastic
Control of Colloidal Self-Assembly [9.791617215182598]
制御目的は、所定の初期確率尺度から最小制御労力で所定の終端確率尺度へ状態PDFを操る観点から定式化される。
我々は、関連する最適制御問題に対する最適性の条件を導出する。
提案手法の性能は, ベンチマークコロイド自己集合問題に対する数値シミュレーションにより検証した。
論文 参考訳(メタデータ) (2022-08-19T07:01:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。