論文の概要: Active Inverse Learning in Stackelberg Trajectory Games
- arxiv url: http://arxiv.org/abs/2308.08017v2
- Date: Sun, 29 Sep 2024 23:18:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 21:57:54.535883
- Title: Active Inverse Learning in Stackelberg Trajectory Games
- Title(参考訳): Stackelberg Trajectory Gamesにおけるアクティブ逆学習
- Authors: William Ward, Yue Yu, Jacob Levy, Negar Mehr, David Fridovich-Keil, Ufuk Topcu,
- Abstract要約: リーダーと追従者の間のスタックルバーグゲームにおける逆学習問題を定式化する。
本稿では,有限個の候補のうちどの仮説がフォロワーの目的関数を最もよく記述しているかを推定する,リーダーの能動的逆学習法を提案する。
- 参考スコア(独自算出の注目度): 32.663862342494745
- License:
- Abstract: Game-theoretic inverse learning is the problem of inferring a player's objectives from their actions. We formulate an inverse learning problem in a Stackelberg game between a leader and a follower, where each player's action is the trajectory of a dynamical system. We propose an active inverse learning method for the leader to infer which hypothesis among a finite set of candidates best describes the follower's objective function. Instead of using passively observed trajectories like existing methods, we actively maximize the differences in the follower's trajectories under different hypotheses by optimizing the leader's control inputs. Compared with uniformly random inputs, the optimized inputs accelerate the convergence of the estimated probability of different hypotheses conditioned on the follower's trajectory. We demonstrate the proposed method in a receding-horizon repeated trajectory game and simulate the results using virtual TurtleBots in Gazebo.
- Abstract(参考訳): ゲーム理論逆学習(Game-theoretic inverse learning)は、プレイヤーの目的を行動から推測する問題である。
リーダーと追従者の間のスタックルバーグゲームにおける逆学習問題を定式化し、各プレイヤーの行動が力学系の軌跡となる。
本稿では,有限個の候補のうちどの仮説がフォロワーの目的関数を最もよく記述しているかを推定する,リーダーの能動的逆学習法を提案する。
既存の手法のような受動的に観察された軌跡を使用する代わりに、リーダーの制御入力を最適化することで、異なる仮説の下でフォロワーの軌跡の違いを積極的に最大化する。
均一にランダムな入力と比較して、最適化された入力は、追従者の軌道上で条件付けられた異なる仮説の推定確率の収束を加速する。
提案手法は,ガゼボの仮想タートルボットを用いて,リテーディングホライズン繰り返し軌道ゲームにおいて実演し,その結果をシミュレートする。
関連論文リスト
- Clustering Human Mobility with Multiple Spaces [8.076957089365676]
本稿では,移動行動検出のための新しいモビリティクラスタリング手法を提案する。
提案手法は変分オートエンコーダアーキテクチャを用いて,潜在空間と原空間の両方でクラスタリングを同時に行う。
実験の結果,提案手法はトラジェクトリからの移動行動検出において,より精度が高く,解釈性も向上した。
論文 参考訳(メタデータ) (2023-01-20T12:02:30Z) - No-Regret Learning in Dynamic Stackelberg Games [31.001205916012307]
Stackelbergゲームでは、リーダーがランダム化された戦略にコミットし、フォロワーがレスポンスでベスト戦略を選択する。
このゲームは、リーダーの報酬や利用可能な戦略に影響を与える基礎となる状態空間を持ち、リーダーとフォロワーの選択した戦略に依存するマルコフ的な方法で進化する。
論文 参考訳(メタデータ) (2022-02-10T01:07:57Z) - Human Trajectory Prediction via Counterfactual Analysis [87.67252000158601]
複雑な動的環境における人間の軌道予測は、自律走行車やインテリジェントロボットにおいて重要な役割を果たす。
既存のほとんどの手法は、歴史の軌跡や環境からの相互作用の手がかりから行動の手がかりによって将来の軌跡を予測することを学習している。
本研究では,予測軌跡と入力手がかりの因果関係を調べるために,人間の軌跡予測に対する反実解析手法を提案する。
論文 参考訳(メタデータ) (2021-07-29T17:41:34Z) - Learning to drive from a world on rails [78.28647825246472]
モデルベースアプローチによって,事前記録された運転ログからインタラクティブな視覚ベースの運転方針を学習する。
世界の前方モデルは、あらゆる潜在的な運転経路の結果を予測する運転政策を監督する。
提案手法は,carla リーダボードにまずランク付けし,40 倍少ないデータを用いて25%高い運転スコアを得た。
論文 参考訳(メタデータ) (2021-05-03T05:55:30Z) - Adversarial Training as Stackelberg Game: An Unrolled Optimization
Approach [91.74682538906691]
逆行訓練はディープラーニングモデルの一般化性能を向上させることが示されている。
Stackelbergゲームとして, 対人トレーニングを定式化するStackelberg Adversarial Training (SALT)を提案する。
論文 参考訳(メタデータ) (2021-04-11T00:44:57Z) - Learning to Shift Attention for Motion Generation [55.61994201686024]
ロボット学習を用いた動作生成の課題の1つは、人間のデモが1つのタスククエリに対して複数のモードを持つ分布に従うことである。
以前のアプローチでは、すべてのモードをキャプチャできなかったり、デモの平均モードを取得できないため、無効なトラジェクトリを生成する傾向があった。
この問題を克服する外挿能力を有するモーション生成モデルを提案する。
論文 参考訳(メタデータ) (2021-02-24T09:07:52Z) - Reward Conditioned Neural Movement Primitives for Population Based
Variational Policy Optimization [4.559353193715442]
本稿では,教師あり学習における報酬に基づく政策探索問題について考察する。
本手法は, 最先端のロボット強化学習法と比較して, 学習の進歩と, サンプル効率の大幅な向上を図っている。
論文 参考訳(メタデータ) (2020-11-09T09:53:37Z) - Learning Game-Theoretic Models of Multiagent Trajectories Using Implicit
Layers [9.594432031144716]
本稿では,ニューラルネットとゲーム理論的推論を併用したエンドツーエンドのトレーニング可能なアーキテクチャを提案する。
トラクタビリティのために、我々は新しいタイプの連続ポテンシャルゲームを導入し、アクション空間の平衡分離分割を導入する。
提案手法は,高速道路統合運転者の軌道を予測できる実世界の2つのデータセットと,簡易な意思決定伝達タスクで評価する。
論文 参考訳(メタデータ) (2020-08-17T13:34:12Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。