論文の概要: Value Approximation for Two-Player General-Sum Differential Games with State Constraints
- arxiv url: http://arxiv.org/abs/2311.16520v3
- Date: Mon, 6 May 2024 22:17:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 19:54:07.801670
- Title: Value Approximation for Two-Player General-Sum Differential Games with State Constraints
- Title(参考訳): 状態制約を持つ2プレーヤ・ジェネラルサム差分ゲームに対する値近似
- Authors: Lei Zhang, Mukesh Ghimire, Wenlong Zhang, Zhe Xu, Yi Ren,
- Abstract要約: Hamilton-Jacobi-Isaacs (HJI) PDEを数値的に解くことで、2プレイヤー差分ゲームにおける平衡フィードバック制御が可能になるが、次元性(CoD)の呪いに直面している。
物理インフォームドニューラルネットワーク(PINN)は、PDEの解決においてCoDを緩和する可能性を示しているが、バニラPINNはサンプリングの性質から不連続な解を学ぶのに不足している。
本研究では,(1)監督均衡とHJI PDEの両方が指導するハイブリッド学習手法,(2)価値硬化手法の3つの可能性について検討する。
- 参考スコア(独自算出の注目度): 24.012924492073974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Solving Hamilton-Jacobi-Isaacs (HJI) PDEs numerically enables equilibrial feedback control in two-player differential games, yet faces the curse of dimensionality (CoD). While physics-informed neural networks (PINNs) have shown promise in alleviating CoD in solving PDEs, vanilla PINNs fall short in learning discontinuous solutions due to their sampling nature, leading to poor safety performance of the resulting policies when values are discontinuous due to state or temporal logic constraints. In this study, we explore three potential solutions to this challenge: (1) a hybrid learning method that is guided by both supervisory equilibria and the HJI PDE, (2) a value-hardening method where a sequence of HJIs are solved with increasing Lipschitz constant on the constraint violation penalty, and (3) the epigraphical technique that lifts the value to a higher dimensional state space where it becomes continuous. Evaluations through 5D and 9D vehicle and 13D drone simulations reveal that the hybrid method outperforms others in terms of generalization and safety performance by taking advantage of both the supervisory equilibrium values and costates, and the low cost of PINN loss gradients.
- Abstract(参考訳): ハミルトン・ヤコビ・イザック (HJI) PDE の解法は、2つのプレイヤー差分ゲームにおける平衡フィードバック制御を可能にするが、次元性 (CoD) の呪いに直面している。
物理インフォームドニューラルネットワーク(PINN)は、PDEの解決におけるCoDの緩和を約束する一方で、バニラPINNはサンプリング特性による不連続解の学習に不足しているため、状態や時間的論理的制約によって値が不連続である場合に、結果として生じるポリシーの安全性が低下する。
本研究では,(1)監督均衡とHJI PDEの両方によって指導されるハイブリッド学習手法,(2)制約違反ペナルティのリプシッツ定数を増大させることでHJIの系列を解く値硬化法,(3)その値が連続となる高次元状態空間へ持ち上げるエピグラフィカル手法,の3つの可能性を探る。
5Dと9Dの車両と13Dのドローンシミュレーションによる評価により、このハイブリッド手法は、監督均衡値とコストの両面を活かし、PINN損失勾配の低コストを生かして、一般化と安全性の両面において他よりも優れていたことが判明した。
関連論文リスト
- Uncertainty Quantification for Forward and Inverse Problems of PDEs via
Latent Global Evolution [110.99891169486366]
本稿では,効率的かつ高精度な不確実性定量化を深層学習に基づく代理モデルに統合する手法を提案する。
本手法は,フォワード問題と逆問題の両方に対して,堅牢かつ効率的な不確実性定量化機能を備えたディープラーニングに基づく代理モデルを提案する。
提案手法は, 長期予測を含むシナリオに適合し, 拡張された自己回帰ロールアウトに対する不確かさの伝播に優れる。
論文 参考訳(メタデータ) (2024-02-13T11:22:59Z) - Pontryagin Neural Operator for Solving Parametric General-Sum Differential Games [24.012924492073974]
本稿では,ポントリャーギンモード型ニューラルオペレータが,パラメトリック状態制約のあるゲーム間での安全性能において,現在最先端のハイブリッドPINNモデルより優れていることを示す。
私たちの重要な貢献は、前方と後方のコストトロールアウトの相違について定義されたコストト損失の導入です。
状態制約違反を反映できるコストトダイナミクスにより,大きなリプシッツ定数を持つ微分可能な値の学習が効果的に可能であることを示す。
論文 参考訳(メタデータ) (2024-01-03T02:15:32Z) - Backstepping Neural Operators for $2\times 2$ Hyperbolic PDEs [2.034806188092437]
双曲型PDEプラントにおけるゲインカーネルPDEの近似システムの課題について検討した。
工学的応用としては、油井掘削、浅瀬波のサン・ヴェナントモデル、渋滞流における停止・停止不安定のAw-Rascle-Zhangモデルなどがある。
論文 参考訳(メタデータ) (2023-12-28T00:49:41Z) - Deep Equilibrium Based Neural Operators for Steady-State PDEs [100.88355782126098]
定常PDEに対する重み付けニューラルネットワークアーキテクチャの利点について検討する。
定常PDEの解を直接解くFNOアーキテクチャの深い平衡変種であるFNO-DEQを提案する。
論文 参考訳(メタデータ) (2023-11-30T22:34:57Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Approximating Discontinuous Nash Equilibrial Values of Two-Player
General-Sum Differential Games [21.291449080239673]
本稿では,ゼロサムゲームにおける連続的な値を持つSOTAから,不連続な値を持つ一般サムゲームへ拡張する。
不連続な損失に対する収束証明の欠如と一般化解析の欠如により、既存の自己教師型学習技術は、自律運転アプリケーションにおける安全性の懸念を一般化・高めるのに失敗している。
我々の解決策は、まず、教師付きナッシュ平衡上の値ネットワークを事前訓練し、教師付きデータとPDEと境界条件を組み合わせた損失を最小化することでそれを洗練することである。
論文 参考訳(メタデータ) (2022-07-05T02:22:05Z) - Learning to Accelerate Partial Differential Equations via Latent Global
Evolution [64.72624347511498]
The Latent Evolution of PDEs (LE-PDE) is a simple, fast and scalable method to accelerate the simulation and inverse optimization of PDEs。
我々は,このような潜在力学を効果的に学習し,長期的安定性を確保するために,新たな学習目標を導入する。
更新対象の寸法が最大128倍、速度が最大15倍向上し、競争精度が向上した。
論文 参考訳(メタデータ) (2022-06-15T17:31:24Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - Physics-Informed Neural Operator for Learning Partial Differential
Equations [55.406540167010014]
PINOは、演算子を学ぶために異なる解像度でデータとPDE制約を組み込んだ最初のハイブリッドアプローチである。
結果の PINO モデルは、多くの人気のある PDE ファミリの基底構造解演算子を正確に近似することができる。
論文 参考訳(メタデータ) (2021-11-06T03:41:34Z) - Multi-Objective Loss Balancing for Physics-Informed Deep Learning [0.0]
PINNを効果的に訓練するために、複数の競合損失関数の組み合わせを正しく重み付けする役割を観察する。
本稿では,ReLoBRaLoと呼ばれるPINNの自己適応的損失分散を提案する。
シミュレーションにより、ReLoBRaLoトレーニングは、他のバランシング手法によるPINNのトレーニングよりもはるかに高速で精度の高いことが示されている。
論文 参考訳(メタデータ) (2021-10-19T09:00:12Z) - Ternary Policy Iteration Algorithm for Nonlinear Robust Control [12.392480840842728]
本稿では, 境界不確実性を伴う非線形ロバスト制御問題の解法として, 3次ポリシー勾配(TPI)アルゴリズムを開発した。
提案アルゴリズムの有効性は,2つのシミュレーション研究を通して検証した。
論文 参考訳(メタデータ) (2020-07-14T04:31:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。