論文の概要: Blending Data-Driven Priors in Dynamic Games
- arxiv url: http://arxiv.org/abs/2402.14174v1
- Date: Wed, 21 Feb 2024 23:22:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 17:04:50.001695
- Title: Blending Data-Driven Priors in Dynamic Games
- Title(参考訳): ダイナミックゲームにおけるデータ駆動プライオリティのブレンディング
- Authors: Justin Lidard, Haimin Hu, Asher Hancock, Zixu Zhang, Albert Gim\'o
Contreras, Vikash Modi, Jonathan DeCastro, Deepak Gopinath, Guy Rosman, Naomi
Leonard, Mar\'ia Santos, Jaime Fern\'andez Fisac
- Abstract要約: KLGameはKulback-Leibler(KL)正規化を用いた非協調型動的ゲームである。
我々は,KLGameのNash平衡戦略を,マルチモーダル近似フィードバックをリアルタイムに計算するための効率的なアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 6.410110981612053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As intelligent robots like autonomous vehicles become increasingly deployed
in the presence of people, the extent to which these systems should leverage
model-based game-theoretic planners versus data-driven policies for safe,
interaction-aware motion planning remains an open question. Existing dynamic
game formulations assume all agents are task-driven and behave optimally.
However, in reality, humans tend to deviate from the decisions prescribed by
these models, and their behavior is better approximated under a noisy-rational
paradigm. In this work, we investigate a principled methodology to blend a
data-driven reference policy with an optimization-based game-theoretic policy.
We formulate KLGame, a type of non-cooperative dynamic game with
Kullback-Leibler (KL) regularization with respect to a general, stochastic, and
possibly multi-modal reference policy. Our method incorporates, for each
decision maker, a tunable parameter that permits modulation between task-driven
and data-driven behaviors. We propose an efficient algorithm for computing
multimodal approximate feedback Nash equilibrium strategies of KLGame in real
time. Through a series of simulated and real-world autonomous driving
scenarios, we demonstrate that KLGame policies can more effectively incorporate
guidance from the reference policy and account for noisily-rational human
behaviors versus non-regularized baselines.
- Abstract(参考訳): 自動運転車のようなインテリジェントなロボットが、人々の存在下でますます展開されるようになるにつれ、これらのシステムがモデルベースのゲーム理論プランナーとデータ駆動のポリシーを、安全で対話性のあるモーションプランニングのために活用すべき範囲は、まだ未解決の問題だ。
既存の動的ゲーム定式化は、全てのエージェントがタスク駆動であり、最適に振る舞うと仮定する。
しかし、実際には、人間はこれらのモデルによって規定される決定から逸脱しがちであり、その振る舞いはノイズレーショナルパラダイムの下でよりよく近似される。
本研究では,データ駆動参照ポリシーと最適化に基づくゲーム理論ポリシーを融合する原理的手法について検討する。
kullback-leibler (kl) 正規化を伴う非協力型ダイナミックゲームの一種である klgame を一般, 確率的, 多様参照ポリシーとして定式化する。
本手法は,各意思決定者に対して,タスク駆動行動とデータ駆動行動の変調を可能にする可変パラメータを組み込む。
我々は,KLGameのNash平衡戦略をリアルタイムに計算する効率的なアルゴリズムを提案する。
シミュレーションおよび実世界の自律運転シナリオを通じて、KLGameポリシーは基準ポリシーからのガイダンスをより効果的に取り入れ、非正規化ベースラインよりもノイズの多い人間の振る舞いを説明できることを示した。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Auto-Encoding Bayesian Inverse Games [36.06617326128679]
ゲームの性質が不明な逆ゲーム問題を考える。
既存の最大推定手法は、未知のパラメータの点推定のみを提供する。
ベイズ的視点を採り、ゲームパラメータの後方分布を構成する。
この構造化されたVAEは、観測された相互作用のラベルのないデータセットから訓練することができる。
論文 参考訳(メタデータ) (2024-02-14T02:17:37Z) - Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。
しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。
視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文 参考訳(メタデータ) (2023-07-28T05:47:24Z) - Data-Scarce Identification of Game Dynamics via Sum-of-Squares Optimization [29.568222003322344]
マルチプレイヤーの正規形式ゲームにおけるゲームダイナミクスを識別するためのサイドインフォーム支援回帰(SIAR)フレームワークを提案する。
SIARは、SOS(sum-of-squares)最適化を用いて解決され、その結果、システムの真の力学に確実に収束する近似の階層となる。
SIARフレームワークは,未知のシステムがカオスであっても,通常のゲーム,広く知られているゲームダイナミクスのファミリー,強力なベンチマークの範囲で,プレーヤの挙動を正確に予測する。
論文 参考訳(メタデータ) (2023-07-13T09:14:48Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Fully Decentralized Model-based Policy Optimization for Networked
Systems [23.46407780093797]
本研究の目的は,モデルベース学習によるマルチエージェント制御のデータ効率の向上である。
エージェントが協力的であり、隣人とのみローカルに通信するネットワークシステムについて検討する。
提案手法では,各エージェントが将来の状態を予測し,通信によって予測をブロードキャストする動的モデルを学習し,その後,モデルロールアウトに基づいてポリシーをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T23:52:14Z) - Deep Interactive Motion Prediction and Planning: Playing Games with
Motion Prediction Models [162.21629604674388]
本研究は,新しい対話型マルチエージェントニューラルネットワークポリシを予測モデルの一部として使用するゲーム理論モデル予測制御器(MPC)を提案する。
本手法の成功の基礎は,周辺エージェントの状態と地図情報に基づいて車両を操縦できる,新しいマルチエージェントポリシーネットワークの設計である。
論文 参考訳(メタデータ) (2022-04-05T17:58:18Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Optimal control of robust team stochastic games [5.425935258756356]
そこで我々は,選手が頑健な最適化アプローチを用いて意思決定を行う「ロバスト」チームゲームのモデルを提案する。
ガウス・シーデル修正政策反復の形で学習アルゴリズムを開発し,その収束性を証明する。
アルゴリズムの有効性を示す数値シミュレーションがいくつか提案されている。
論文 参考訳(メタデータ) (2021-05-16T10:42:09Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z) - Towards a Systematic Computational Framework for Modeling Multi-Agent
Decision-Making at Micro Level for Smart Vehicles in a Smart World [8.899670429041453]
スマートカーのマイクロレベルにおける意思決定と戦略的相互作用をモデル化するためのマルチエージェントベースの計算フレームワークを提案する。
本研究の目的は,自律走行車のためのマイクロパス計画など,様々な現実的なアプリケーションに対して,概念的に健全かつ実用的なフレームワークを提供することである。
論文 参考訳(メタデータ) (2020-09-25T13:05:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。