論文の概要: Approximating Discontinuous Nash Equilibrial Values of Two-Player
General-Sum Differential Games
- arxiv url: http://arxiv.org/abs/2207.01773v1
- Date: Tue, 5 Jul 2022 02:22:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-06 15:52:37.490320
- Title: Approximating Discontinuous Nash Equilibrial Values of Two-Player
General-Sum Differential Games
- Title(参考訳): 非連続ナッシュ平衡値の2プレーヤ・ジェネラルサム差分ゲームによる近似
- Authors: Lei Zhang, Mukesh Ghimire, Wenlong Zhang, Zhe Xu, Yi Ren
- Abstract要約: 本稿では,ゼロサムゲームにおける連続的な値を持つSOTAから,不連続な値を持つ一般サムゲームへ拡張する。
不連続な損失に対する収束証明の欠如と一般化解析の欠如により、既存の自己教師型学習技術は、自律運転アプリケーションにおける安全性の懸念を一般化・高めるのに失敗している。
我々の解決策は、まず、教師付きナッシュ平衡上の値ネットワークを事前訓練し、教師付きデータとPDEと境界条件を組み合わせた損失を最小化することでそれを洗練することである。
- 参考スコア(独自算出の注目度): 21.291449080239673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Finding Nash equilibrial policies for two-player differential games requires
solving Hamilton-Jacobi-Isaacs PDEs. Recent studies achieved success in
circumventing the curse of dimensionality in solving such PDEs with underlying
applications to human-robot interactions (HRI), by adopting self-supervised
(physics-informed) neural networks as universal value approximators. This paper
extends from previous SOTA on zero-sum games with continuous values to
general-sum games with discontinuous values, where the discontinuity is caused
by that of the players' losses. We show that due to its lack of convergence
proof and generalization analysis on discontinuous losses, the existing
self-supervised learning technique fails to generalize and raises safety
concerns in an autonomous driving application. Our solution is to first
pre-train the value network on supervised Nash equilibria, and then refine it
by minimizing a loss that combines the supervised data with the PDE and
boundary conditions. Importantly, the demonstrated advantage of the proposed
learning method against purely supervised and self-supervised approaches
requires careful choice of the neural activation function: Among
$\texttt{relu}$, $\texttt{sin}$, and $\texttt{tanh}$, we show that
$\texttt{tanh}$ is the only choice that achieves optimal generalization and
safety performance. Our conjecture is that $\texttt{tanh}$ (similar to
$\texttt{sin}$) allows continuity of value and its gradient, which is
sufficient for the convergence of learning, and at the same time is expressive
enough (similar to $\texttt{relu}$) at approximating discontinuous value
landscapes. Lastly, we apply our method to approximating control policies for
an incomplete-information interaction and demonstrate its contribution to safe
interactions.
- Abstract(参考訳): 2人のプレイヤー微分ゲームに対するナッシュ平衡ポリシーを見つけるには、ハミルトン・ヤコビ・イザックス PDE を解く必要がある。
近年の研究では、人間とロボットの相互作用(HRI)に根ざしたPDEの解決に成功し、自己教師付きニューラルネットワークを普遍的価値近似器として採用している。
本稿では,ゼロサムゲームにおける連続的な値を持つSOTAから,不連続な値を持つ一般サムゲームへ拡張する。
我々は,その収束証明の欠如と不連続損失の一般化分析により,既存の自己教師付き学習手法では,自動運転アプリケーションにおける安全性の懸念を一般化し,高めることができないことを示す。
我々の解決策は、まず、教師付きナッシュ平衡上の値ネットワークを事前訓練し、教師付きデータとPDEと境界条件を組み合わせた損失を最小化することでそれを洗練することである。
重要なことに、純粋な教師付きおよび自己教師付きアプローチに対する学習手法の実証的な利点は、神経活性化関数の注意深い選択を必要とする:$\texttt{relu}$, $\texttt{sin}$, $\texttt{tanh}$, そして、$\texttt{tanh}$が最適な一般化と安全性を実現する唯一の選択であることを示す。
我々の予想では、$\texttt{tanh}$($\textt{sin}$に似ている)は値の連続性とその勾配を許容し、学習の収束に十分であり、同時に不連続な値のランドスケープを近似するのに十分な表現的($\texttt{relu}$に似ている)である。
最後に,不完全な情報相互作用に対する制御ポリシの近似に本手法を適用し,その安全な相互作用への寄与を実証する。
関連論文リスト
- HSVI-based Online Minimax Strategies for Partially Observable Stochastic Games with Neural Perception Mechanisms [31.51588071503617]
ニューラル認知機構と非対称情報構造を持つ連続状態の部分観測可能なゲームの変種を考察する。
1つのエージェントは部分的な情報を持ち、もう1つのエージェントは状態に関する完全な知識を持っていると仮定される。
本稿では,各エージェントに対して$varepsilon$-minimax戦略プロファイルを計算するための効率的なオンライン手法を提案する。
論文 参考訳(メタデータ) (2024-04-16T15:58:20Z) - On Tractable $Φ$-Equilibria in Non-Concave Games [53.212133025684224]
非凹面ゲームはゲーム理論と最適化に重大な課題をもたらす。
Phi$が有限であるとき、対応する$Phi$-equilibriaに収束する効率的な非結合学習アルゴリズムが存在することを示す。
また,オンライングラディエントDescentは,非自明な状況下で効率よく$Phi$-equilibriaを近似できることを示した。
論文 参考訳(メタデータ) (2024-03-13T01:51:30Z) - Pontryagin Neural Operator for Solving Parametric General-Sum Differential Games [24.012924492073974]
本稿では,ポントリャーギンモード型ニューラルオペレータが,パラメトリック状態制約のあるゲーム間での安全性能において,現在最先端のハイブリッドPINNモデルより優れていることを示す。
私たちの重要な貢献は、前方と後方のコストトロールアウトの相違について定義されたコストト損失の導入です。
状態制約違反を反映できるコストトダイナミクスにより,大きなリプシッツ定数を持つ微分可能な値の学習が効果的に可能であることを示す。
論文 参考訳(メタデータ) (2024-01-03T02:15:32Z) - Value Approximation for Two-Player General-Sum Differential Games with State Constraints [24.012924492073974]
Hamilton-Jacobi-Isaacs (HJI) PDEを数値的に解くことで、2プレイヤー差分ゲームにおける平衡フィードバック制御が可能になるが、次元性(CoD)の呪いに直面している。
物理インフォームドニューラルネットワーク(PINN)は、PDEの解決においてCoDを緩和する可能性を示しているが、バニラPINNはサンプリングの性質から不連続な解を学ぶのに不足している。
本研究では,(1)監督均衡とHJI PDEの両方が指導するハイブリッド学習手法,(2)価値硬化手法の3つの可能性について検討する。
論文 参考訳(メタデータ) (2023-11-28T04:58:41Z) - Adaptive, Doubly Optimal No-Regret Learning in Strongly Monotone and Exp-Concave Games with Gradient Feedback [75.29048190099523]
オンライン勾配降下(OGD)は、強い凸性や単調性仮定の下では二重最適であることが知られている。
本稿では,これらのパラメータの事前知識を必要としない完全適応型OGDアルゴリズム,textsfAdaOGDを設計する。
論文 参考訳(メタデータ) (2023-10-21T18:38:13Z) - Global Nash Equilibrium in Non-convex Multi-player Game: Theory and
Algorithms [66.8634598612777]
ナッシュ均衡(NE)はマルチプレイヤーゲームにおいて全てのプレイヤーに受け入れられることを示す。
また、一般理論から一歩ずつ一方的に利益を得ることはできないことも示している。
論文 参考訳(メタデータ) (2023-01-19T11:36:50Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Learning Stationary Nash Equilibrium Policies in $n$-Player Stochastic
Games with Independent Chains [2.132096006921048]
我々は、プレイヤーがペイオフ機能を介して結合されている間、内部の状態/行動空間を持つ、$n$プレイヤゲームのクラスを考える。
このクラスのゲームに対して、報奨関数を仮定せずに定常ナッシュ(NE)ポリシーを見つけることは、対話可能であることを示す。
我々は,2重平均化と2重ミラー降下に基づくアルゴリズムを開発し,これを$epsilon$-NEポリシーの集合に収束させる。
論文 参考訳(メタデータ) (2022-01-28T16:27:21Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。