論文の概要: Learning Nash Equilibrial Hamiltonian for Two-Player Collision-Avoiding Interactions
- arxiv url: http://arxiv.org/abs/2503.07013v2
- Date: Wed, 19 Mar 2025 21:47:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 22:26:20.630723
- Title: Learning Nash Equilibrial Hamiltonian for Two-Player Collision-Avoiding Interactions
- Title(参考訳): 2プレイヤー衝突回避インタラクションのためのナッシュ平衡ハミルトニアンの学習
- Authors: Lei Zhang, Siddharth Das, Tanner Merry, Wenlong Zhang, Yi Ren,
- Abstract要約: リスクに敏感な衝突回避インタラクションにおけるNash平衡ポリシの学習の問題点を考察する。
一般的な解法は、与えられたシステム状態と動作の平衡ハミルトニアンを近似するニューラルネットワークを学習することである。
本稿では、均衡政策のよりデータ効率の高い学習への2つの貢献を主張する。
- 参考スコア(独自算出の注目度): 18.393489321612773
- License:
- Abstract: We consider the problem of learning Nash equilibrial policies for two-player risk-sensitive collision-avoiding interactions. Solving the Hamilton-Jacobi-Isaacs equations of such general-sum differential games in real time is an open challenge due to the discontinuity of equilibrium values on the state space. A common solution is to learn a neural network that approximates the equilibrium Hamiltonian for given system states and actions. The learning, however, is usually supervised and requires a large amount of sample equilibrium policies from different initial states in order to mitigate the risks of collisions. This paper claims two contributions towards more data-efficient learning of equilibrium policies: First, instead of computing Hamiltonian through a value network, we show that the equilibrium co-states have simple structures when collision avoidance dominates the agents' loss functions and system dynamics is linear, and therefore are more data-efficient to learn. Second, we introduce theory-driven active learning to guide data sampling, where the acquisition function measures the compliance of the predicted co-states to Pontryagin's Maximum Principle. On an uncontrolled intersection case, the proposed method leads to more generalizable approximation of the equilibrium policies, and in turn, lower collision probabilities, than the state-of-the-art under the same data acquisition budget.
- Abstract(参考訳): リスクに敏感な衝突回避インタラクションにおけるNash平衡ポリシの学習の問題点を考察する。
そのような一般サム微分ゲームのハミルトン・ヤコビ・イザックス方程式をリアルタイムで解くことは、状態空間上の平衡値の不連続性のため、オープンな挑戦である。
一般的な解法は、与えられたシステム状態と動作の平衡ハミルトニアンを近似するニューラルネットワークを学習することである。
しかし、この学習は一般的に監督されており、衝突のリスクを軽減するために、異なる初期状態から大量のサンプル平衡政策を必要とする。
第一に、ハミルトニアンを値ネットワークで計算する代わりに、衝突回避がエージェントの損失関数を支配し、系力学が線形である場合、平衡コステートが単純な構造を持つことを示す。
第2に、データサンプリングのガイドとなる理論駆動型アクティブラーニングを導入し、予測されたコステートのコンプライアンスをポントリャーギンの最大原理に適合させる。
制御不能な交差点の場合、提案手法は平衡ポリシのより一般化可能な近似を導出し、同じデータ取得予算の下での最先端技術よりも衝突確率が低い。
関連論文リスト
- Sequential Manipulation Against Rank Aggregation: Theory and Algorithm [119.57122943187086]
脆弱なデータ収集プロセスに対するオンライン攻撃を活用します。
ゲーム理論の観点からは、対決シナリオは分布的に堅牢なゲームとして定式化される。
提案手法は,ランクアグリゲーション手法の結果を逐次的に操作する。
論文 参考訳(メタデータ) (2024-07-02T03:31:21Z) - Offline Learning in Markov Games with General Function Approximation [22.2472618685325]
マルコフゲームにおけるオフラインマルチエージェント強化学習(RL)について検討する。
マルコフゲームにおけるサンプル効率のよいオフライン学習のための最初のフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-06T05:22:27Z) - Game-Theoretical Perspectives on Active Equilibria: A Preferred Solution
Concept over Nash Equilibria [61.093297204685264]
マルチエージェント強化学習における効果的なアプローチは,エージェントの学習プロセスを検討し,今後の政策に影響を与えることである。
この新たな解の概念は、ナッシュ均衡のような標準解の概念が活性平衡の特別な場合である、という一般的なものである。
我々は,ゲーム理論の観点から,ナッシュ平衡が知られている実例を綿密に研究することにより,アクティブ平衡を解析する。
論文 参考訳(メタデータ) (2022-10-28T14:45:39Z) - A note on large deviations for interacting particle dynamics for finding
mixed equilibria in zero-sum games [0.0]
連続ミニマックスゲームにおける平衡点の発見は、機械学習において重要な問題となっている。
最近の発展は純平衡から混合平衡点に焦点を移している。
本研究では,粒子の数が無限に増加するにつれて,粒子系の経験的測定の順序が大きな偏差原理を満たすことを示す。
論文 参考訳(メタデータ) (2022-06-30T10:29:21Z) - Sample-Efficient Learning of Stackelberg Equilibria in General-Sum Games [78.65798135008419]
一般的なゲームでStackelberg平衡を効率的に学習する方法は、サンプルから非常にオープンなままです。
本稿では,2プレーヤターンベース汎用ゲームにおけるStackelberg平衡のサンプル効率学習に関する理論的研究を開始する。
論文 参考訳(メタデータ) (2021-02-23T05:11:07Z) - Counterfactual Representation Learning with Balancing Weights [74.67296491574318]
観察データによる因果推論の鍵は、それぞれの治療タイプに関連する予測的特徴のバランスを達成することである。
近年の文献では、この目標を達成するために表現学習を探求している。
因果効果を柔軟かつスケーラブルかつ正確に推定するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-10-23T19:06:03Z) - On Information Asymmetry in Competitive Multi-Agent Reinforcement
Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。
この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-21T11:19:53Z) - Double Robust Representation Learning for Counterfactual Prediction [68.78210173955001]
そこで本稿では, 対実予測のための2次ロバスト表現を学習するための, スケーラブルな新しい手法を提案する。
我々は、個々の治療効果と平均的な治療効果の両方に対して、堅牢で効率的な対実的予測を行う。
このアルゴリズムは,実世界の最先端技術と合成データとの競合性能を示す。
論文 参考訳(メタデータ) (2020-10-15T16:39:26Z) - Calibration of Shared Equilibria in General Sum Partially Observable
Markov Games [15.572157454411533]
我々は、異なるタイプのエージェントが単一のポリシーネットワークを共有する、一般的な可観測マルコフゲームを考える。
本稿は,そのようなエージェントが到達した平衡を形式的に理解すること,および,そのような平衡の創発的な現象を現実のターゲットに合わせることを目的としている。
論文 参考訳(メタデータ) (2020-06-23T15:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。