論文の概要: Active Inverse Learning in Stackelberg Trajectory Games
- arxiv url: http://arxiv.org/abs/2308.08017v1
- Date: Tue, 15 Aug 2023 20:17:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 15:44:13.482274
- Title: Active Inverse Learning in Stackelberg Trajectory Games
- Title(参考訳): Stackelberg Trajectory Gamesにおけるアクティブ逆学習
- Authors: Yue Yu, Jacob Levy, Negar Mehr, David Fridovich-Keil, and Ufuk Topcu
- Abstract要約: リーダーと追従者の間のスタックルバーグゲームにおける逆学習問題を定式化する。
本稿では,有限個の候補のうちどの仮説がフォロワーの目的関数を記述しているかを推定する,リーダーの能動的逆学習法を提案する。
- 参考スコア(独自算出の注目度): 34.6111453235322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Game-theoretic inverse learning is the problem of inferring the players'
objectives from their actions. We formulate an inverse learning problem in a
Stackelberg game between a leader and a follower, where each player's action is
the trajectory of a dynamical system. We propose an active inverse learning
method for the leader to infer which hypothesis among a finite set of
candidates describes the follower's objective function. Instead of using
passively observed trajectories like existing methods, the proposed method
actively maximizes the differences in the follower's trajectories under
different hypotheses to accelerate the leader's inference. We demonstrate the
proposed method in a receding-horizon repeated trajectory game. Compared with
uniformly random inputs, the leader inputs provided by the proposed method
accelerate the convergence of the probability of different hypotheses
conditioned on the follower's trajectory by orders of magnitude.
- Abstract(参考訳): ゲーム理論の逆学習は、プレイヤーの行動から目的を推測する問題である。
リーダーと追従者の間のスタックルバーグゲームにおける逆学習問題を定式化し、各プレイヤーの行動が力学系の軌跡となる。
本稿では,有限個の候補のうちどの仮説がフォロワーの目的関数を記述しているかを推定する,リーダーの能動的逆学習法を提案する。
提案手法では,従来の手法のように受動的に観測された軌跡を用いるのではなく,異なる仮説の下での従者の軌跡の違いを積極的に最大化し,リーダーの推測を加速する。
提案手法を,後退水平反復軌道ゲームで実証する。
一様ランダム入力と比較して,提案手法により得られたリーダ入力は,従者の軌道上で条件付けられた異なる仮説の確率の収束を桁々に促進する。
関連論文リスト
- Clustering Human Mobility with Multiple Spaces [8.076957089365676]
本稿では,移動行動検出のための新しいモビリティクラスタリング手法を提案する。
提案手法は変分オートエンコーダアーキテクチャを用いて,潜在空間と原空間の両方でクラスタリングを同時に行う。
実験の結果,提案手法はトラジェクトリからの移動行動検出において,より精度が高く,解釈性も向上した。
論文 参考訳(メタデータ) (2023-01-20T12:02:30Z) - No-Regret Learning in Dynamic Stackelberg Games [31.001205916012307]
Stackelbergゲームでは、リーダーがランダム化された戦略にコミットし、フォロワーがレスポンスでベスト戦略を選択する。
このゲームは、リーダーの報酬や利用可能な戦略に影響を与える基礎となる状態空間を持ち、リーダーとフォロワーの選択した戦略に依存するマルコフ的な方法で進化する。
論文 参考訳(メタデータ) (2022-02-10T01:07:57Z) - Human Trajectory Prediction via Counterfactual Analysis [87.67252000158601]
複雑な動的環境における人間の軌道予測は、自律走行車やインテリジェントロボットにおいて重要な役割を果たす。
既存のほとんどの手法は、歴史の軌跡や環境からの相互作用の手がかりから行動の手がかりによって将来の軌跡を予測することを学習している。
本研究では,予測軌跡と入力手がかりの因果関係を調べるために,人間の軌跡予測に対する反実解析手法を提案する。
論文 参考訳(メタデータ) (2021-07-29T17:41:34Z) - Learning to drive from a world on rails [78.28647825246472]
モデルベースアプローチによって,事前記録された運転ログからインタラクティブな視覚ベースの運転方針を学習する。
世界の前方モデルは、あらゆる潜在的な運転経路の結果を予測する運転政策を監督する。
提案手法は,carla リーダボードにまずランク付けし,40 倍少ないデータを用いて25%高い運転スコアを得た。
論文 参考訳(メタデータ) (2021-05-03T05:55:30Z) - Adversarial Training as Stackelberg Game: An Unrolled Optimization
Approach [91.74682538906691]
逆行訓練はディープラーニングモデルの一般化性能を向上させることが示されている。
Stackelbergゲームとして, 対人トレーニングを定式化するStackelberg Adversarial Training (SALT)を提案する。
論文 参考訳(メタデータ) (2021-04-11T00:44:57Z) - Learning to Shift Attention for Motion Generation [55.61994201686024]
ロボット学習を用いた動作生成の課題の1つは、人間のデモが1つのタスククエリに対して複数のモードを持つ分布に従うことである。
以前のアプローチでは、すべてのモードをキャプチャできなかったり、デモの平均モードを取得できないため、無効なトラジェクトリを生成する傾向があった。
この問題を克服する外挿能力を有するモーション生成モデルを提案する。
論文 参考訳(メタデータ) (2021-02-24T09:07:52Z) - Reward Conditioned Neural Movement Primitives for Population Based
Variational Policy Optimization [4.559353193715442]
本稿では,教師あり学習における報酬に基づく政策探索問題について考察する。
本手法は, 最先端のロボット強化学習法と比較して, 学習の進歩と, サンプル効率の大幅な向上を図っている。
論文 参考訳(メタデータ) (2020-11-09T09:53:37Z) - Learning Game-Theoretic Models of Multiagent Trajectories Using Implicit
Layers [9.594432031144716]
本稿では,ニューラルネットとゲーム理論的推論を併用したエンドツーエンドのトレーニング可能なアーキテクチャを提案する。
トラクタビリティのために、我々は新しいタイプの連続ポテンシャルゲームを導入し、アクション空間の平衡分離分割を導入する。
提案手法は,高速道路統合運転者の軌道を予測できる実世界の2つのデータセットと,簡易な意思決定伝達タスクで評価する。
論文 参考訳(メタデータ) (2020-08-17T13:34:12Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。