論文の概要: Value Approximation for Two-Player General-Sum Differential Games with
State Constraints
- arxiv url: http://arxiv.org/abs/2311.16520v1
- Date: Tue, 28 Nov 2023 04:58:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 09:25:16.979171
- Title: Value Approximation for Two-Player General-Sum Differential Games with
State Constraints
- Title(参考訳): 状態制約付き2プレイヤー一般サム微分ゲームの値近似
- Authors: Lei Zhang, Mukesh Ghimire, Wenlong Zhang, Zhe Xu, Yi Ren
- Abstract要約: Hamilton-Jacobi-Isaacs (HJI) PDE を解くことで、2人のプレイヤー差分ゲームにおける平衡フィードバック制御が可能になるが、次元性(CoD)の呪いに直面している。
本研究では,(1)平衡実証とHJI PDEの両方を用いたハイブリッド学習法,(2)制約違反ペナルティのリプシッツ定数を増大させてHJIの列を解く値硬化法,(3)値が連続となる高次元補助状態空間に値を持ち上げるエピグラフィカル手法,の3つの可能性について検討する。
- 参考スコア(独自算出の注目度): 25.762168887754893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Solving Hamilton-Jacobi-Isaacs (HJI) PDEs enables equilibrial feedback
control in two-player differential games, yet faces the curse of dimensionality
(CoD). While physics-informed machine learning has been adopted to address CoD
in solving PDEs, this method falls short in learning discontinuous solutions
due to its sampling nature, leading to poor safety performance of the resulting
controllers in robotics applications where values are discontinuous due to
state or other temporal logic constraints. In this study, we explore three
potential solutions to this problem: (1) a hybrid learning method that uses
both equilibrium demonstrations and the HJI PDE, (2) a value-hardening method
where a sequence of HJIs are solved with increasing Lipschitz constant on the
constraint violation penalty, and (3) the epigraphical technique that lifts the
value to a higher dimensional auxiliary state space where the value becomes
continuous. Evaluations through 5D and 9D vehicle simulations and 13D drone
simulations reveal that the hybrid method outperforms others in terms of
generalization and safety performance.
- Abstract(参考訳): Hamilton-Jacobi-Isaacs (HJI) PDE を解くことで、2人のプレイヤーの差分ゲームにおける平衡フィードバック制御が可能になるが、次元性(CoD)の呪いに直面している。
物理インフォームド機械学習は、PDEの解法においてCoDに対処するために採用されているが、この手法はサンプリングの性質から不連続解を学習するには不十分であり、状態やその他の時間的論理的制約により値が不連続であるロボティクスアプリケーションにおいて、結果として生じるコントローラの安全性性能が低下する。
本研究では,(1)平衡実証とHJI PDEの両方を用いたハイブリッド学習法,(2)制約違反ペナルティのリプシッツ定数を増大させてHJIの列を解く値硬化法,(3)値が連続となる高次元補助状態空間に値を持ち上げるエピグラフィカル手法,の3つの可能性について検討する。
5Dと9Dの車両シミュレーションと13Dのドローンシミュレーションによる評価は、このハイブリッド手法が一般化と安全性の面で他よりも優れていることを示している。
関連論文リスト
- Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Physics-constrained robust learning of open-form PDEs from limited and
noisy data [0.8099700053397277]
R-DISCOVER(R-DISCOVER)は、自由形式偏微分方程式(PDE)を有限かつノイズの多いデータから堅牢に発見するように設計されたフレームワークである。
ニューラルネットワークに基づく予測モデルは、システム応答に適合し、生成されたPDEに対する報酬評価器として機能する。
数値実験により, 非線形力学系から, 極めてノイズの多いデータで支配方程式を発見できることを示す。
論文 参考訳(メタデータ) (2023-09-14T12:34:42Z) - Learning to Accelerate Partial Differential Equations via Latent Global
Evolution [64.72624347511498]
The Latent Evolution of PDEs (LE-PDE) is a simple, fast and scalable method to accelerate the simulation and inverse optimization of PDEs。
我々は,このような潜在力学を効果的に学習し,長期的安定性を確保するために,新たな学習目標を導入する。
更新対象の寸法が最大128倍、速度が最大15倍向上し、競争精度が向上した。
論文 参考訳(メタデータ) (2022-06-15T17:31:24Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - PI-VAE: Physics-Informed Variational Auto-Encoder for stochastic
differential equations [2.741266294612776]
我々は、物理学インフォームド・ニューラルネットワーク(PI-VAE)と呼ばれる新しいタイプの物理インフォームド・ニューラルネットワークを提案する。
PI-VAEは、システム変数とパラメータのサンプルを生成する変分オートエンコーダ(VAE)で構成されている。
提案手法の精度と効率を,物理インフォームド生成対向ネットワーク (PI-WGAN) と比較して数値的に検証した。
論文 参考訳(メタデータ) (2022-03-21T21:51:19Z) - Message Passing Neural PDE Solvers [60.77761603258397]
我々は、バックプロップ最適化されたニューラル関数近似器で、グラフのアリーデザインのコンポーネントを置き換えるニューラルメッセージパッシング解決器を構築した。
本稿では, 有限差分, 有限体積, WENOスキームなどの古典的手法を表現的に含んでいることを示す。
本研究では, 異なる領域のトポロジ, 方程式パラメータ, 離散化などにおける高速, 安定, 高精度な性能を, 1次元, 2次元で検証する。
論文 参考訳(メタデータ) (2022-02-07T17:47:46Z) - Continuous-Time Fitted Value Iteration for Robust Policies [93.25997466553929]
ハミルトン・ヤコビ・ベルマン方程式の解法は、制御、ロボティクス、経済学を含む多くの領域において重要である。
連続適合値反復(cFVI)とロバスト適合値反復(rFVI)を提案する。
これらのアルゴリズムは、多くの連続制御問題の非線形制御-アフィンダイナミクスと分離可能な状態とアクション報酬を利用する。
論文 参考訳(メタデータ) (2021-10-05T11:33:37Z) - DC3: A learning method for optimization with hard constraints [85.12291213315905]
この問題に対処するアルゴリズムとして,Deep Constraint Completion and Correction (DC3)を提案する。
DC3は、等式制約を満たす部分解と不等式制約を満たすアンロールベースの補正を暗黙的に完成する。
合成最適化タスクとAC最適電力流の実世界設定の両方でDC3の有効性を実証します。
論文 参考訳(メタデータ) (2021-04-25T18:21:59Z) - Ternary Policy Iteration Algorithm for Nonlinear Robust Control [12.392480840842728]
本稿では, 境界不確実性を伴う非線形ロバスト制御問題の解法として, 3次ポリシー勾配(TPI)アルゴリズムを開発した。
提案アルゴリズムの有効性は,2つのシミュレーション研究を通して検証した。
論文 参考訳(メタデータ) (2020-07-14T04:31:28Z) - Solver-in-the-Loop: Learning from Differentiable Physics to Interact
with Iterative PDE-Solvers [26.444103444634994]
認識されたPDEが捉えない効果を補正することにより、機械学習が解の精度を向上させることができることを示す。
従来使用されていた学習手法は,学習ループにソルバを組み込む手法により大幅に性能が向上していることがわかった。
これにより、以前の補正を考慮に入れたリアルな入力分布がモデルに提供される。
論文 参考訳(メタデータ) (2020-06-30T18:00:03Z) - FiniteNet: A Fully Convolutional LSTM Network Architecture for
Time-Dependent Partial Differential Equations [0.0]
我々は、PDEのダイナミクスを利用するために、完全に畳み込みLSTMネットワークを使用する。
ベースラインアルゴリズムと比較して,ネットワークの誤差を2~3倍に削減できることを示す。
論文 参考訳(メタデータ) (2020-02-07T21:18:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。