論文の概要: Pontryagin Neural Operator for Solving Parametric General-Sum
Differential Games
- arxiv url: http://arxiv.org/abs/2401.01502v1
- Date: Wed, 3 Jan 2024 02:15:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 15:20:42.212134
- Title: Pontryagin Neural Operator for Solving Parametric General-Sum
Differential Games
- Title(参考訳): パラメトリック汎用微分ゲームのためのポントリャーギンニューラル演算子
- Authors: Lei Zhang, Mukesh Ghimire, Zhe Xu, Wenlong Zhang, Yi Ren
- Abstract要約: パラメトリックな状態制約を持つゲームにおいて、既存の最先端(SOTA)よりも優れた安全性を有するポントリャーギンモードニューラル演算子を提案する。
私たちの重要な貢献は、前方と後方のコストトロールアウトの相違について定義されたコストト損失の導入です。
コストトダイナミクスの不連続性は、手動で教師付きデータを必要とすることなく、効果的に不連続値の学習を可能にすることを示す。
- 参考スコア(独自算出の注目度): 25.762168887754893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The values of two-player general-sum differential games are viscosity
solutions to Hamilton-Jacobi-Isaacs (HJI) equations. Value and policy
approximations for such games suffer from the curse of dimensionality (CoD).
Alleviating CoD through physics-informed neural networks (PINN) encounters
convergence issues when value discontinuity is present due to state
constraints. On top of these challenges, it is often necessary to learn
generalizable values and policies across a parametric space of games, e.g., for
game parameter inference when information is incomplete. To address these
challenges, we propose in this paper a Pontryagin-mode neural operator that
outperforms existing state-of-the-art (SOTA) on safety performance across games
with parametric state constraints. Our key contribution is the introduction of
a costate loss defined on the discrepancy between forward and backward costate
rollouts, which are computationally cheap. We show that the discontinuity of
costate dynamics (in the presence of state constraints) effectively enables the
learning of discontinuous values, without requiring manually supervised data as
suggested by the current SOTA. More importantly, we show that the close
relationship between costates and policies makes the former critical in
learning feedback control policies with generalizable safety performance.
- Abstract(参考訳): 2プレイヤーの一般サム微分ゲームの値はハミルトン・ヤコビ・イザック方程式の粘性解である。
このようなゲームに対する価値と政策の近似は、次元の呪い(cod)に苦しむ。
物理インフォームドニューラルネットワーク(PINN)によるCoDの緩和は、状態制約による値の不連続が存在する場合に収束問題に遭遇する。
これらの課題に加えて、情報が不完全である場合にゲームパラメータ推論のために、ゲームのパラメトリック空間全体にわたって一般化可能な値とポリシーを学ぶ必要がある。
これらの課題に対処するため,本論文では,パラメトリック状態制約のあるゲーム間での安全性性能において,既存の最先端(sota)を上回るポントリャーギンモードニューラルオペレータを提案する。
私たちの重要な貢献は、前向きと後向きのコストトロールアウトの相違について定義されたコストト損失の導入です。
コストのかかるダイナミクスの不連続性(状態制約が存在する場合)は、現在のsomaが提案するような手作業によるデータ監視を必要とせず、効果的に不連続な値の学習を可能にする。
さらに重要なことは、コストとポリシーの密接な関係が、前者が一般的な安全性能を持つフィードバック制御ポリシーを学習する上で重要なものであることを示す。
関連論文リスト
- Auto-Encoding Bayesian Inverse Games [38.69344806372856]
ゲームの性質が未知であり、観察から推測しなければならない逆ゲーム問題を考える。
既存の最大推定手法は、未知のパラメータの点推定のみを提供する。
可変オートエンコーダと組込み微分可能ゲームソルバを用いて推論を抽出する。
論文 参考訳(メタデータ) (2024-02-14T02:17:37Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Value Approximation for Two-Player General-Sum Differential Games with
State Constraints [25.762168887754893]
Hamilton-Jacobi-Isaacs (HJI) PDE を解くことで、2人のプレイヤー差分ゲームにおける平衡フィードバック制御が可能になるが、次元性(CoD)の呪いに直面している。
本研究では,(1)平衡実証とHJI PDEの両方を用いたハイブリッド学習法,(2)制約違反ペナルティのリプシッツ定数を増大させてHJIの列を解く値硬化法,(3)値が連続となる高次元補助状態空間に値を持ち上げるエピグラフィカル手法,の3つの可能性について検討する。
論文 参考訳(メタデータ) (2023-11-28T04:58:41Z) - Solving Forward and Inverse Problems of Contact Mechanics using
Physics-Informed Neural Networks [0.0]
出力変換によって強化された混合変数定式化でPINNをデプロイし、ハード制約とソフト制約を強制する。
PINNは純粋部分方程式(PDE)の解法として、データ強化フォワードモデルとして、そして高速に評価可能なサロゲートモデルとして機能することを示す。
論文 参考訳(メタデータ) (2023-08-24T11:31:24Z) - Data-Driven Games in Computational Mechanics [0.0]
ストレスとストレインプレイヤが異なる目的を追求するソリッドメカニクスのためのデータ駆動手法を定式化する。
ストレスプレーヤの目的は、材料データセットとの相違を最小限に抑えることであり、ストレインプレーヤの目的は、機械的状態の許容性を確保することである。
過去に提案された協調型データ駆動ゲームとは異なり、新しい非協調型データ駆動ゲームは、データから有効物質法を識別する。
論文 参考訳(メタデータ) (2023-05-26T08:17:22Z) - A Unified Framework of Policy Learning for Contextual Bandit with
Confounding Bias and Missing Observations [108.89353070722497]
本研究では,観測データを用いた最適ポリシの獲得を目的とした,オフラインのコンテキスト的帯域幅問題について検討する。
本稿では、積分方程式系の解として報酬関数を形成するCausal-Adjusted Pessimistic(CAP)ポリシー学習という新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-20T15:17:31Z) - On the Convergence of No-Regret Learning Dynamics in Time-Varying Games [89.96815099996132]
時間変化ゲームにおける楽観的勾配降下(OGD)の収束を特徴付ける。
我々のフレームワークは、ゼロサムゲームにおけるOGDの平衡ギャップに対して鋭い収束境界をもたらす。
また,静的ゲームにおける動的後悔の保証に関する新たな洞察も提供する。
論文 参考訳(メタデータ) (2023-01-26T17:25:45Z) - Approximating Discontinuous Nash Equilibrial Values of Two-Player
General-Sum Differential Games [21.291449080239673]
本稿では,ゼロサムゲームにおける連続的な値を持つSOTAから,不連続な値を持つ一般サムゲームへ拡張する。
不連続な損失に対する収束証明の欠如と一般化解析の欠如により、既存の自己教師型学習技術は、自律運転アプリケーションにおける安全性の懸念を一般化・高めるのに失敗している。
我々の解決策は、まず、教師付きナッシュ平衡上の値ネットワークを事前訓練し、教師付きデータとPDEと境界条件を組み合わせた損失を最小化することでそれを洗練することである。
論文 参考訳(メタデータ) (2022-07-05T02:22:05Z) - Conservative Policy Construction Using Variational Autoencoders for
Logged Data with Missing Values [77.99648230758491]
特徴属性に値が欠けている場合にログデータを用いてパーソナライズされたポリシーを構築することの問題点を考察する。
目標は、値が不足している$Xt$の劣化したバージョンである$Xb$が観測された場合、アクションを推奨することである。
特に,不確かさによる不確実性に対処するためにポリシーを設計したテキスト保守戦略を導入する。
論文 参考訳(メタデータ) (2021-09-08T16:09:47Z) - A Variational Inequality Approach to Bayesian Regression Games [90.79402153164587]
我々は凸類の一意性の存在を証明し、それを滑らかなコスト関数に一般化する。
必然的に強い収束で解くための2つの簡単なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-03-24T22:33:11Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。