Fugu-MT 論文翻訳(概要): Value Approximation for Two-Player General-Sum Differential Games with State Constraints

論文の概要: Value Approximation for Two-Player General-Sum Differential Games with State Constraints

arxiv url: http://arxiv.org/abs/2311.16520v1
Date: Tue, 28 Nov 2023 04:58:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-30 09:25:16.979171
Title: Value Approximation for Two-Player General-Sum Differential Games with State Constraints
Title（参考訳）: 状態制約付き2プレイヤー一般サム微分ゲームの値近似
Authors: Lei Zhang, Mukesh Ghimire, Wenlong Zhang, Zhe Xu, Yi Ren
Abstract要約: Hamilton-Jacobi-Isaacs (HJI) PDE を解くことで、2人のプレイヤー差分ゲームにおける平衡フィードバック制御が可能になるが、次元性(CoD)の呪いに直面している。本研究では,(1)平衡実証とHJI PDEの両方を用いたハイブリッド学習法,(2)制約違反ペナルティのリプシッツ定数を増大させてHJIの列を解く値硬化法,(3)値が連続となる高次元補助状態空間に値を持ち上げるエピグラフィカル手法,の3つの可能性について検討する。
参考スコア（独自算出の注目度）: 25.762168887754893
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Solving Hamilton-Jacobi-Isaacs (HJI) PDEs enables equilibrial feedback control in two-player differential games, yet faces the curse of dimensionality (CoD). While physics-informed machine learning has been adopted to address CoD in solving PDEs, this method falls short in learning discontinuous solutions due to its sampling nature, leading to poor safety performance of the resulting controllers in robotics applications where values are discontinuous due to state or other temporal logic constraints. In this study, we explore three potential solutions to this problem: (1) a hybrid learning method that uses both equilibrium demonstrations and the HJI PDE, (2) a value-hardening method where a sequence of HJIs are solved with increasing Lipschitz constant on the constraint violation penalty, and (3) the epigraphical technique that lifts the value to a higher dimensional auxiliary state space where the value becomes continuous. Evaluations through 5D and 9D vehicle simulations and 13D drone simulations reveal that the hybrid method outperforms others in terms of generalization and safety performance.
Abstract（参考訳）: Hamilton-Jacobi-Isaacs (HJI) PDE を解くことで、2人のプレイヤーの差分ゲームにおける平衡フィードバック制御が可能になるが、次元性(CoD)の呪いに直面している。物理インフォームド機械学習は、PDEの解法においてCoDに対処するために採用されているが、この手法はサンプリングの性質から不連続解を学習するには不十分であり、状態やその他の時間的論理的制約により値が不連続であるロボティクスアプリケーションにおいて、結果として生じるコントローラの安全性性能が低下する。本研究では,(1)平衡実証とHJI PDEの両方を用いたハイブリッド学習法,(2)制約違反ペナルティのリプシッツ定数を増大させてHJIの列を解く値硬化法,(3)値が連続となる高次元補助状態空間に値を持ち上げるエピグラフィカル手法,の3つの可能性について検討する。 5Dと9Dの車両シミュレーションと13Dのドローンシミュレーションによる評価は、このハイブリッド手法が一般化と安全性の面で他よりも優れていることを示している。

関連論文リスト

The Best of Both Worlds: Hybridizing Neural Operators and Solvers for Stable Long-Horizon Inference [0.0]
ANCHORは、PDEの安定な長距離予測のためのオンラインのインスタンス対応ハイブリッド推論フレームワークである。本稿では,ANCHORが長い水平誤差の増大を確実に拘束し,外挿ロールアウトを安定化し,スタンドアロンのニューラル演算子に対するロバスト性を大幅に向上させることを示す。
論文参考訳（メタデータ） (2025-12-22T18:17:28Z)
Mind Your Entropy: From Maximum Entropy to Trajectory Entropy-Constrained RL [56.085103402298905]
本稿では,この2つの課題に対処する軌道エントロピー制約強化学習(TECRL)フレームワークを提案する。このフレームワーク内では、まず報酬とエントロピーに関連する2つのQ-関数を個別に学習し、温度更新の影響を受けないクリーンで安定した値ターゲットを確保する。我々は,3つの改良を加えて,最先端の分散型ソフトアクター批判を拡張して,現実的な非政治的アルゴリズムDSAC-Eを開発した。
論文参考訳（メタデータ） (2025-10-25T09:17:47Z)
From Uncertain to Safe: Conformal Fine-Tuning of Diffusion Models for Safe PDE Control [16.249515106834355]
我々は,安全制約下での最適制御を実現するために,PDE制御のためのセーフ拡散モデル(SafeDiffCon)を提案する。提案手法は,安全制約を満たす制御シーケンスを生成するために,事前学習した拡散モデルをポストトレーニングする。我々は,1次元バーガー方程式,2次元非圧縮流体,制御核融合問題という3つの制御課題についてSafeDiffConを評価した。
論文参考訳（メタデータ） (2025-02-04T10:42:30Z)
Advancing Generalization in PINNs through Latent-Space Representations [71.86401914779019]
物理インフォームドニューラルネットワーク(PINN)は、偏微分方程式(PDE)によって支配される力学系のモデリングにおいて大きな進歩を遂げた。本稿では,多種多様なPDE構成を効果的に一般化する物理インフォームドニューラルPDE解法PIDOを提案する。 PIDOは1次元合成方程式と2次元ナビエ・ストークス方程式を含む様々なベンチマークで検証する。
論文参考訳（メタデータ） (2024-11-28T13:16:20Z)
P$^2$C$^2$Net: PDE-Preserved Coarse Correction Network for efficient prediction of spatiotemporal dynamics [38.53011684603394]
我々はPDE保存型粗補正ネットワーク(P$2$C$2$Net)を導入し、小さなデータ構造における粗いメッシュグリッド上のPDE問題を解決する。モデルは,(1)粗い解(すなわちシステム状態)の更新を学習するトレーニング可能なPDEブロックと,(2)一貫した解の修正を行うニューラルネットワークブロックの2つの相乗的モジュールから構成される。
論文参考訳（メタデータ） (2024-10-29T14:45:07Z)
Dual Cone Gradient Descent for Training Physics-Informed Neural Networks [0.0]
物理インフォームド・デュアルニューラルネットワーク(PINN)は偏微分方程式の解法として注目されている。コーン領域内に落下するのを確実にするために、更新された勾配の方向を調節する新しいフレームワークであるDual Cone Gradient Descent (DCGD)を提案する。
論文参考訳（メタデータ） (2024-09-27T03:27:46Z)
Uncertainty Quantification for Forward and Inverse Problems of PDEs via Latent Global Evolution [110.99891169486366]
本稿では,効率的かつ高精度な不確実性定量化を深層学習に基づく代理モデルに統合する手法を提案する。本手法は,フォワード問題と逆問題の両方に対して,堅牢かつ効率的な不確実性定量化機能を備えたディープラーニングに基づく代理モデルを提案する。提案手法は, 長期予測を含むシナリオに適合し, 拡張された自己回帰ロールアウトに対する不確かさの伝播に優れる。
論文参考訳（メタデータ） (2024-02-13T11:22:59Z)
Deep Equilibrium Based Neural Operators for Steady-State PDEs [100.88355782126098]
定常PDEに対する重み付けニューラルネットワークアーキテクチャの利点について検討する。定常PDEの解を直接解くFNOアーキテクチャの深い平衡変種であるFNO-DEQを提案する。
論文参考訳（メタデータ） (2023-11-30T22:34:57Z)
Implicit Stochastic Gradient Descent for Training Physics-informed Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。 PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文参考訳（メタデータ） (2023-03-03T08:17:47Z)
Approximating Discontinuous Nash Equilibrial Values of Two-Player General-Sum Differential Games [21.291449080239673]
本稿では,ゼロサムゲームにおける連続的な値を持つSOTAから,不連続な値を持つ一般サムゲームへ拡張する。不連続な損失に対する収束証明の欠如と一般化解析の欠如により、既存の自己教師型学習技術は、自律運転アプリケーションにおける安全性の懸念を一般化・高めるのに失敗している。我々の解決策は、まず、教師付きナッシュ平衡上の値ネットワークを事前訓練し、教師付きデータとPDEと境界条件を組み合わせた損失を最小化することでそれを洗練することである。
論文参考訳（メタデータ） (2022-07-05T02:22:05Z)
Learning to Accelerate Partial Differential Equations via Latent Global Evolution [64.72624347511498]
The Latent Evolution of PDEs (LE-PDE) is a simple, fast and scalable method to accelerate the simulation and inverse optimization of PDEs。我々は,このような潜在力学を効果的に学習し,長期的安定性を確保するために,新たな学習目標を導入する。更新対象の寸法が最大128倍、速度が最大15倍向上し、競争精度が向上した。
論文参考訳（メタデータ） (2022-06-15T17:31:24Z)
Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。 GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文参考訳（メタデータ） (2022-06-08T21:32:50Z)
Physics-Informed Neural Operator for Learning Partial Differential Equations [55.406540167010014]
PINOは、演算子を学ぶために異なる解像度でデータとPDE制約を組み込んだ最初のハイブリッドアプローチである。結果の PINO モデルは、多くの人気のある PDE ファミリの基底構造解演算子を正確に近似することができる。
論文参考訳（メタデータ） (2021-11-06T03:41:34Z)
Multi-Objective Loss Balancing for Physics-Informed Deep Learning [0.0]
PINNを効果的に訓練するために、複数の競合損失関数の組み合わせを正しく重み付けする役割を観察する。本稿では,ReLoBRaLoと呼ばれるPINNの自己適応的損失分散を提案する。シミュレーションにより、ReLoBRaLoトレーニングは、他のバランシング手法によるPINNのトレーニングよりもはるかに高速で精度の高いことが示されている。
論文参考訳（メタデータ） (2021-10-19T09:00:12Z)
Ternary Policy Iteration Algorithm for Nonlinear Robust Control [12.392480840842728]
本稿では, 境界不確実性を伴う非線形ロバスト制御問題の解法として, 3次ポリシー勾配(TPI)アルゴリズムを開発した。提案アルゴリズムの有効性は,2つのシミュレーション研究を通して検証した。
論文参考訳（メタデータ） (2020-07-14T04:31:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。