論文の概要: Game-theoretic Objective Space Planning
- arxiv url: http://arxiv.org/abs/2209.07758v1
- Date: Fri, 16 Sep 2022 07:35:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-19 13:07:07.294699
- Title: Game-theoretic Objective Space Planning
- Title(参考訳): ゲーム理論による空間計画
- Authors: Hongrui Zheng, Zhijun Zhuang, Johannes Betz, Rahul Mangharam
- Abstract要約: 他のエージェントの意図を理解することは、敵のマルチエージェント環境における自律システムの展開に不可欠である。
現在のアプローチは、エージェントのアクション空間の離散化を過度に単純化するか、または、アクションの長期的な効果を認識して、ミオピックになるのに失敗する。
本稿では,エージェント動作の連続性を維持しつつ,多様なエージェント動作をカプセル化する新しい次元還元法を提案する。
- 参考スコア(独自算出の注目度): 4.989480853499916
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Autonomous Racing awards agents that react to opponents' behaviors with agile
maneuvers towards progressing along the track while penalizing both
over-aggressive and over-conservative agents. Understanding the intent of other
agents is crucial to deploying autonomous systems in adversarial multi-agent
environments. Current approaches either oversimplify the discretization of the
action space of agents or fail to recognize the long-term effect of actions and
become myopic. Our work focuses on addressing these two challenges. First, we
propose a novel dimension reduction method that encapsulates diverse agent
behaviors while conserving the continuity of agent actions. Second, we
formulate the two-agent racing game as a regret minimization problem and
provide a solution for tractable counterfactual regret minimization with a
regret prediction model. Finally, we validate our findings experimentally on
scaled autonomous vehicles. We demonstrate that using the proposed
game-theoretic planner using agent characterization with the objective space
significantly improves the win rate against different opponents, and the
improvement is transferable to unseen opponents in an unseen environment.
- Abstract(参考訳): 自律レーシングは、過度の攻撃的エージェントと過保守的なエージェントの両方を罰しながら、トラックに沿って進行するアジャイルの操作で相手の行動に反応するエージェントを表彰する。
他のエージェントの意図を理解することは、敵のマルチエージェント環境における自律システムの展開に不可欠である。
現在のアプローチは、エージェントのアクション空間の離散化を過度に単純化するか、または、アクションの長期的な効果を認識して、ミオピックになるのに失敗する。
私たちの仕事は、これらの2つの課題に対処することに焦点を当てています。
まず,エージェント動作の連続性を維持しつつ,多様なエージェント動作をカプセル化する新しい次元還元法を提案する。
第2に,2エージェント・レーシングゲームを後悔最小化問題として定式化し,後悔予測モデルを用いて対処可能な反事実的後悔最小化の解を提供する。
最後に,我々の研究成果を大規模自動運転車で実験的に検証した。
目的空間のエージェント特性を用いたゲーム理論プランナを用いて、異なる相手に対する勝利率を大幅に向上し、見知らぬ環境下での対戦相手に対して改善が転送可能であることを示す。
関連論文リスト
- Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - Mimicking To Dominate: Imitation Learning Strategies for Success in
Multiagent Competitive Games [13.060023718506917]
我々は、対戦者の次の動きを予測するための新しいマルチエージェント模倣学習モデルを開発する。
また、模倣学習モデルとポリシートレーニングを組み合わせた、新しいマルチエージェント強化学習アルゴリズムを1つのトレーニングプロセスに導入する。
実験結果から,本手法は既存のマルチエージェントRLアルゴリズムと比較して性能が優れていることがわかった。
論文 参考訳(メタデータ) (2023-08-20T07:30:13Z) - Learning Models of Adversarial Agent Behavior under Partial
Observability [6.757727645540147]
本稿では,相手エージェントの動作をモデル化するためのグラフベース相互情報モデリング(GrAMMI)を提案する。
GrAMMIは、相互情報を補助目的として利用する新しいグラフニューラルネットワーク(GNN)ベースのアプローチである。
論文 参考訳(メタデータ) (2023-06-19T21:18:52Z) - Moving Forward by Moving Backward: Embedding Action Impact over Action
Semantics [57.671493865825255]
本稿では,潜伏埋め込みを用いた飛行行動の影響をモデル化する。
これらの潜在アクション埋め込みと、トランスフォーマーベースのポリシーヘッドを組み合わせることで、アクション適応ポリシーを設計する。
当社のAAPは, 対面時, 推論時, 動作不足時, 以前は見えなかった摂動行動空間においても, 高い性能を示した。
論文 参考訳(メタデータ) (2023-04-24T17:35:47Z) - Formalizing the Problem of Side Effect Regularization [81.97441214404247]
本稿では,補助ゲームフレームワークを用いたサイドエフェクト正規化のための公式な基準を提案する。
これらのゲームでは、エージェントは部分的に観測可能なマルコフ決定プロセスを解決する。
このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。
論文 参考訳(メタデータ) (2022-06-23T16:36:13Z) - Safe adaptation in multiagent competition [48.02377041620857]
マルチエージェントの競争シナリオでは、エゴエージェントは前例のない振る舞いを持つ新しい相手に適応しなければならない。
エゴエージェントは、相手を悪用するために自身の行動を更新するので、その行動はより悪用される可能性がある。
我々は,エゴエージェントを正規化相手モデルに対してトレーニングする安全な適応手法を開発する。
論文 参考訳(メタデータ) (2022-03-14T23:53:59Z) - End-to-End Learning and Intervention in Games [60.41921763076017]
ゲームにおける学習と介入のための統一的なフレームワークを提供する。
明示的および暗黙的な区別に基づく2つのアプローチを提案する。
分析結果は、実世界のいくつかの問題を用いて検証される。
論文 参考訳(メタデータ) (2020-10-26T18:39:32Z) - Moody Learners -- Explaining Competitive Behaviour of Reinforcement
Learning Agents [65.2200847818153]
競合シナリオでは、エージェントは動的環境を持つだけでなく、相手の行動に直接影響される。
エージェントのQ値の観察は通常、その振る舞いを説明する方法であるが、選択されたアクション間の時間的関係は示さない。
論文 参考訳(メタデータ) (2020-07-30T11:30:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。