論文の概要: Pontryagin Neural Operator for Solving Parametric General-Sum
Differential Games
- arxiv url: http://arxiv.org/abs/2401.01502v1
- Date: Wed, 3 Jan 2024 02:15:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 15:20:42.212134
- Title: Pontryagin Neural Operator for Solving Parametric General-Sum
Differential Games
- Title(参考訳): パラメトリック汎用微分ゲームのためのポントリャーギンニューラル演算子
- Authors: Lei Zhang, Mukesh Ghimire, Zhe Xu, Wenlong Zhang, Yi Ren
- Abstract要約: パラメトリックな状態制約を持つゲームにおいて、既存の最先端(SOTA)よりも優れた安全性を有するポントリャーギンモードニューラル演算子を提案する。
私たちの重要な貢献は、前方と後方のコストトロールアウトの相違について定義されたコストト損失の導入です。
コストトダイナミクスの不連続性は、手動で教師付きデータを必要とすることなく、効果的に不連続値の学習を可能にすることを示す。
- 参考スコア(独自算出の注目度): 25.762168887754893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The values of two-player general-sum differential games are viscosity
solutions to Hamilton-Jacobi-Isaacs (HJI) equations. Value and policy
approximations for such games suffer from the curse of dimensionality (CoD).
Alleviating CoD through physics-informed neural networks (PINN) encounters
convergence issues when value discontinuity is present due to state
constraints. On top of these challenges, it is often necessary to learn
generalizable values and policies across a parametric space of games, e.g., for
game parameter inference when information is incomplete. To address these
challenges, we propose in this paper a Pontryagin-mode neural operator that
outperforms existing state-of-the-art (SOTA) on safety performance across games
with parametric state constraints. Our key contribution is the introduction of
a costate loss defined on the discrepancy between forward and backward costate
rollouts, which are computationally cheap. We show that the discontinuity of
costate dynamics (in the presence of state constraints) effectively enables the
learning of discontinuous values, without requiring manually supervised data as
suggested by the current SOTA. More importantly, we show that the close
relationship between costates and policies makes the former critical in
learning feedback control policies with generalizable safety performance.
- Abstract(参考訳): 2プレイヤーの一般サム微分ゲームの値はハミルトン・ヤコビ・イザック方程式の粘性解である。
このようなゲームに対する価値と政策の近似は、次元の呪い(cod)に苦しむ。
物理インフォームドニューラルネットワーク(PINN)によるCoDの緩和は、状態制約による値の不連続が存在する場合に収束問題に遭遇する。
これらの課題に加えて、情報が不完全である場合にゲームパラメータ推論のために、ゲームのパラメトリック空間全体にわたって一般化可能な値とポリシーを学ぶ必要がある。
これらの課題に対処するため,本論文では,パラメトリック状態制約のあるゲーム間での安全性性能において,既存の最先端(sota)を上回るポントリャーギンモードニューラルオペレータを提案する。
私たちの重要な貢献は、前向きと後向きのコストトロールアウトの相違について定義されたコストト損失の導入です。
コストのかかるダイナミクスの不連続性(状態制約が存在する場合)は、現在のsomaが提案するような手作業によるデータ監視を必要とせず、効果的に不連続な値の学習を可能にする。
さらに重要なことは、コストとポリシーの密接な関係が、前者が一般的な安全性能を持つフィードバック制御ポリシーを学習する上で重要なものであることを示す。
関連論文リスト
- Auto-Encoding Bayesian Inverse Games [36.06617326128679]
ゲームの性質が不明な逆ゲーム問題を考える。
既存の最大推定手法は、未知のパラメータの点推定のみを提供する。
ベイズ的視点を採り、ゲームパラメータの後方分布を構成する。
この構造化されたVAEは、観測された相互作用のラベルのないデータセットから訓練することができる。
論文 参考訳(メタデータ) (2024-02-14T02:17:37Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Value Approximation for Two-Player General-Sum Differential Games with State Constraints [24.012924492073974]
Hamilton-Jacobi-Isaacs (HJI) PDEを数値的に解くことで、2プレイヤー差分ゲームにおける平衡フィードバック制御が可能になるが、次元性(CoD)の呪いに直面している。
物理インフォームドニューラルネットワーク(PINN)は、PDEの解決においてCoDを緩和する可能性を示しているが、バニラPINNはサンプリングの性質から不連続な解を学ぶのに不足している。
本研究では,(1)監督均衡とHJI PDEの両方が指導するハイブリッド学習手法,(2)価値硬化手法の3つの可能性について検討する。
論文 参考訳(メタデータ) (2023-11-28T04:58:41Z) - Solving Forward and Inverse Problems of Contact Mechanics using
Physics-Informed Neural Networks [0.0]
出力変換によって強化された混合変数定式化でPINNをデプロイし、ハード制約とソフト制約を強制する。
PINNは純粋部分方程式(PDE)の解法として、データ強化フォワードモデルとして、そして高速に評価可能なサロゲートモデルとして機能することを示す。
論文 参考訳(メタデータ) (2023-08-24T11:31:24Z) - Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。
ソフトマージン条件下でのバニラQ関数の類似した結果を示す。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文 参考訳(メタデータ) (2023-02-05T14:22:41Z) - Function Approximation for Solving Stackelberg Equilibrium in Large
Perfect Information Games [115.77438739169155]
汎用ゲームにおける状態値関数の一般化であるtextitEnforceable Payoff Frontier (EPF) の学習を提案する。
Stackelbergの設定にFAを適用する最初の方法です。
論文 参考訳(メタデータ) (2022-12-29T19:05:50Z) - Near-Optimal $\Phi$-Regret Learning in Extensive-Form Games [85.78272987312343]
我々は、効率よく非結合な学習力学を確立し、各プレイヤーのトリガー後悔は、プレイの繰り返しの後に$O(log T)$として成長する。
これにより、これまでよく知られていた$O(T1/4)$よりも指数関数的に改善される。
論文 参考訳(メタデータ) (2022-08-20T20:48:58Z) - Approximating Discontinuous Nash Equilibrial Values of Two-Player
General-Sum Differential Games [21.291449080239673]
本稿では,ゼロサムゲームにおける連続的な値を持つSOTAから,不連続な値を持つ一般サムゲームへ拡張する。
不連続な損失に対する収束証明の欠如と一般化解析の欠如により、既存の自己教師型学習技術は、自律運転アプリケーションにおける安全性の懸念を一般化・高めるのに失敗している。
我々の解決策は、まず、教師付きナッシュ平衡上の値ネットワークを事前訓練し、教師付きデータとPDEと境界条件を組み合わせた損失を最小化することでそれを洗練することである。
論文 参考訳(メタデータ) (2022-07-05T02:22:05Z) - Robust Implicit Networks via Non-Euclidean Contractions [63.91638306025768]
暗黙のニューラルネットワークは、精度の向上とメモリ消費の大幅な削減を示す。
彼らは不利な姿勢と収束の不安定さに悩まされる。
本論文は,ニューラルネットワークを高機能かつ頑健に設計するための新しい枠組みを提供する。
論文 参考訳(メタデータ) (2021-06-06T18:05:02Z) - A Variational Inequality Approach to Bayesian Regression Games [90.79402153164587]
我々は凸類の一意性の存在を証明し、それを滑らかなコスト関数に一般化する。
必然的に強い収束で解くための2つの簡単なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-03-24T22:33:11Z) - Fixed Point Networks: Implicit Depth Models with Jacobian-Free Backprop [21.00060644438722]
深層学習のトレンドは、ネットワーク深度が無限に近づくにつれて、限界の近似によって固定深度モデルを置き換える。
特に暗黙の深度モデルによるバックプロパゲーションは、暗黙の関数定理から生じるヤコブ方程式の解法を必要とする。
ネットワーク重みと入力データによって定義される固有の限界に前方伝播の収束を保証する固定点ネットワーク(FPN)を提案する。
論文 参考訳(メタデータ) (2021-03-23T19:20:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。