論文の概要: Active Inverse Learning in Stackelberg Trajectory Games
- arxiv url: http://arxiv.org/abs/2308.08017v3
- Date: Fri, 11 Oct 2024 20:28:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 17:54:07.169725
- Title: Active Inverse Learning in Stackelberg Trajectory Games
- Title(参考訳): Stackelberg Trajectory Gamesにおけるアクティブ逆学習
- Authors: William Ward, Yue Yu, Jacob Levy, Negar Mehr, David Fridovich-Keil, Ufuk Topcu,
- Abstract要約: リーダーと追従者の間のスタックルバーグゲームにおける逆学習問題を定式化する。
本稿では,有限個の候補のうちどの仮説がフォロワーの目的関数を最もよく記述しているかを推定する,リーダーの能動的逆学習法を提案する。
- 参考スコア(独自算出の注目度): 32.663862342494745
- License:
- Abstract: Game-theoretic inverse learning is the problem of inferring a player's objectives from their actions. We formulate an inverse learning problem in a Stackelberg game between a leader and a follower, where each player's action is the trajectory of a dynamical system. We propose an active inverse learning method for the leader to infer which hypothesis among a finite set of candidates best describes the follower's objective function. Instead of using passively observed trajectories like existing methods, we actively maximize the differences in the follower's trajectories under different hypotheses by optimizing the leader's control inputs. Compared with uniformly random inputs, the optimized inputs accelerate the convergence of the estimated probability of different hypotheses conditioned on the follower's trajectory. We demonstrate the proposed method in a receding-horizon repeated trajectory game and simulate the results using virtual TurtleBots in Gazebo.
- Abstract(参考訳): ゲーム理論逆学習(Game-theoretic inverse learning)は、プレイヤーの目的を行動から推測する問題である。
リーダーと追従者の間のスタックルバーグゲームにおける逆学習問題を定式化し、各プレイヤーの行動が力学系の軌跡となる。
本稿では,有限個の候補のうちどの仮説がフォロワーの目的関数を最もよく記述しているかを推定する,リーダーの能動的逆学習法を提案する。
既存の手法のような受動的に観察された軌跡を使用する代わりに、リーダーの制御入力を最適化することで、異なる仮説の下でフォロワーの軌跡の違いを積極的に最大化する。
均一にランダムな入力と比較して、最適化された入力は、追従者の軌道上で条件付けられた異なる仮説の推定確率の収束を加速する。
提案手法は,ガゼボの仮想タートルボットを用いて,リテーディングホライズン繰り返し軌道ゲームにおいて実演し,その結果をシミュレートする。
関連論文リスト
- Auto-Encoding Bayesian Inverse Games [36.06617326128679]
ゲームの性質が不明な逆ゲーム問題を考える。
既存の最大推定手法は、未知のパラメータの点推定のみを提供する。
ベイズ的視点を採り、ゲームパラメータの後方分布を構成する。
この構造化されたVAEは、観測された相互作用のラベルのないデータセットから訓練することができる。
論文 参考訳(メタデータ) (2024-02-14T02:17:37Z) - No-Regret Learning in Dynamic Stackelberg Games [31.001205916012307]
Stackelbergゲームでは、リーダーがランダム化された戦略にコミットし、フォロワーがレスポンスでベスト戦略を選択する。
このゲームは、リーダーの報酬や利用可能な戦略に影響を与える基礎となる状態空間を持ち、リーダーとフォロワーの選択した戦略に依存するマルコフ的な方法で進化する。
論文 参考訳(メタデータ) (2022-02-10T01:07:57Z) - Human Trajectory Prediction via Counterfactual Analysis [87.67252000158601]
複雑な動的環境における人間の軌道予測は、自律走行車やインテリジェントロボットにおいて重要な役割を果たす。
既存のほとんどの手法は、歴史の軌跡や環境からの相互作用の手がかりから行動の手がかりによって将来の軌跡を予測することを学習している。
本研究では,予測軌跡と入力手がかりの因果関係を調べるために,人間の軌跡予測に対する反実解析手法を提案する。
論文 参考訳(メタデータ) (2021-07-29T17:41:34Z) - Adversarial Training as Stackelberg Game: An Unrolled Optimization
Approach [91.74682538906691]
逆行訓練はディープラーニングモデルの一般化性能を向上させることが示されている。
Stackelbergゲームとして, 対人トレーニングを定式化するStackelberg Adversarial Training (SALT)を提案する。
論文 参考訳(メタデータ) (2021-04-11T00:44:57Z) - Learning to Shift Attention for Motion Generation [55.61994201686024]
ロボット学習を用いた動作生成の課題の1つは、人間のデモが1つのタスククエリに対して複数のモードを持つ分布に従うことである。
以前のアプローチでは、すべてのモードをキャプチャできなかったり、デモの平均モードを取得できないため、無効なトラジェクトリを生成する傾向があった。
この問題を克服する外挿能力を有するモーション生成モデルを提案する。
論文 参考訳(メタデータ) (2021-02-24T09:07:52Z) - Reward Conditioned Neural Movement Primitives for Population Based
Variational Policy Optimization [4.559353193715442]
本稿では,教師あり学習における報酬に基づく政策探索問題について考察する。
本手法は, 最先端のロボット強化学習法と比較して, 学習の進歩と, サンプル効率の大幅な向上を図っている。
論文 参考訳(メタデータ) (2020-11-09T09:53:37Z) - Learning Game-Theoretic Models of Multiagent Trajectories Using Implicit
Layers [9.594432031144716]
本稿では,ニューラルネットとゲーム理論的推論を併用したエンドツーエンドのトレーニング可能なアーキテクチャを提案する。
トラクタビリティのために、我々は新しいタイプの連続ポテンシャルゲームを導入し、アクション空間の平衡分離分割を導入する。
提案手法は,高速道路統合運転者の軌道を予測できる実世界の2つのデータセットと,簡易な意思決定伝達タスクで評価する。
論文 参考訳(メタデータ) (2020-08-17T13:34:12Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。