論文の概要: Game-theoretic Objective Space Planning
- arxiv url: http://arxiv.org/abs/2209.07758v1
- Date: Fri, 16 Sep 2022 07:35:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-19 13:07:07.294699
- Title: Game-theoretic Objective Space Planning
- Title(参考訳): ゲーム理論による空間計画
- Authors: Hongrui Zheng, Zhijun Zhuang, Johannes Betz, Rahul Mangharam
- Abstract要約: 他のエージェントの意図を理解することは、敵のマルチエージェント環境における自律システムの展開に不可欠である。
現在のアプローチは、エージェントのアクション空間の離散化を過度に単純化するか、または、アクションの長期的な効果を認識して、ミオピックになるのに失敗する。
本稿では,エージェント動作の連続性を維持しつつ,多様なエージェント動作をカプセル化する新しい次元還元法を提案する。
- 参考スコア(独自算出の注目度): 4.989480853499916
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Autonomous Racing awards agents that react to opponents' behaviors with agile
maneuvers towards progressing along the track while penalizing both
over-aggressive and over-conservative agents. Understanding the intent of other
agents is crucial to deploying autonomous systems in adversarial multi-agent
environments. Current approaches either oversimplify the discretization of the
action space of agents or fail to recognize the long-term effect of actions and
become myopic. Our work focuses on addressing these two challenges. First, we
propose a novel dimension reduction method that encapsulates diverse agent
behaviors while conserving the continuity of agent actions. Second, we
formulate the two-agent racing game as a regret minimization problem and
provide a solution for tractable counterfactual regret minimization with a
regret prediction model. Finally, we validate our findings experimentally on
scaled autonomous vehicles. We demonstrate that using the proposed
game-theoretic planner using agent characterization with the objective space
significantly improves the win rate against different opponents, and the
improvement is transferable to unseen opponents in an unseen environment.
- Abstract(参考訳): 自律レーシングは、過度の攻撃的エージェントと過保守的なエージェントの両方を罰しながら、トラックに沿って進行するアジャイルの操作で相手の行動に反応するエージェントを表彰する。
他のエージェントの意図を理解することは、敵のマルチエージェント環境における自律システムの展開に不可欠である。
現在のアプローチは、エージェントのアクション空間の離散化を過度に単純化するか、または、アクションの長期的な効果を認識して、ミオピックになるのに失敗する。
私たちの仕事は、これらの2つの課題に対処することに焦点を当てています。
まず,エージェント動作の連続性を維持しつつ,多様なエージェント動作をカプセル化する新しい次元還元法を提案する。
第2に,2エージェント・レーシングゲームを後悔最小化問題として定式化し,後悔予測モデルを用いて対処可能な反事実的後悔最小化の解を提供する。
最後に,我々の研究成果を大規模自動運転車で実験的に検証した。
目的空間のエージェント特性を用いたゲーム理論プランナを用いて、異なる相手に対する勝利率を大幅に向上し、見知らぬ環境下での対戦相手に対して改善が転送可能であることを示す。
関連論文リスト
- Rethinking the Intermediate Features in Adversarial Attacks: Misleading Robotic Models via Adversarial Distillation [23.805401747928745]
本稿では,言語調和型ロボットモデルに適した,新たな対角攻撃を提案する。
本研究は,ロボット領域に直接移行した場合,既存の対角法が有効性に限界があることを実証する。
敵攻撃に対する中間的特徴の有益な影響を同定し,攻撃効果を高めるために,中間的自己意図的特徴の負の勾配を利用する。
論文 参考訳(メタデータ) (2024-11-21T02:46:04Z) - Inverse Attention Agent for Multi-Agent System [6.196239958087161]
マルチエージェントシステムにとって大きな課題は、エージェントが対戦相手やチームメイトが継続的に変化する様々な環境に動的に適応できるようにすることである。
本稿では、心の理論から概念を取り入れた逆注意エージェントを導入し、注意機構を用いてアルゴリズムで実装し、エンドツーエンドで訓練する。
逆アテンションネットワークが他のエージェントのアテンションを推測することに成功し、この情報によってエージェントのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-10-29T06:59:11Z) - Improving the Generalization of Unseen Crowd Behaviors for Reinforcement Learning based Local Motion Planners [36.684452789236914]
現在の強化学習ベースのモーションプランナーは、歩行者の動きをシミュレートするための単一のポリシーに依存している。
本稿では,情報理論の目的を最大化することにより,エージェントの多様性を高める効率的な手法を提案する。
未確認の群衆に対するエージェントの堅牢性を評価するために,歩行者の群集行動に触発された多様なシナリオを提案する。
論文 参考訳(メタデータ) (2024-10-16T04:46:21Z) - Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - Multi-granular Adversarial Attacks against Black-box Neural Ranking Models [111.58315434849047]
多粒性摂動を取り入れた高品質な逆数例を作成する。
我々は,多粒体攻撃を逐次的意思決定プロセスに変換する。
本手法は,攻撃の有効性と非受容性の両方において,一般的なベースラインを超えている。
論文 参考訳(メタデータ) (2024-04-02T02:08:29Z) - Formalizing the Problem of Side Effect Regularization [81.97441214404247]
本稿では,補助ゲームフレームワークを用いたサイドエフェクト正規化のための公式な基準を提案する。
これらのゲームでは、エージェントは部分的に観測可能なマルコフ決定プロセスを解決する。
このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。
論文 参考訳(メタデータ) (2022-06-23T16:36:13Z) - Safe adaptation in multiagent competition [48.02377041620857]
マルチエージェントの競争シナリオでは、エゴエージェントは前例のない振る舞いを持つ新しい相手に適応しなければならない。
エゴエージェントは、相手を悪用するために自身の行動を更新するので、その行動はより悪用される可能性がある。
我々は,エゴエージェントを正規化相手モデルに対してトレーニングする安全な適応手法を開発する。
論文 参考訳(メタデータ) (2022-03-14T23:53:59Z) - End-to-End Learning and Intervention in Games [60.41921763076017]
ゲームにおける学習と介入のための統一的なフレームワークを提供する。
明示的および暗黙的な区別に基づく2つのアプローチを提案する。
分析結果は、実世界のいくつかの問題を用いて検証される。
論文 参考訳(メタデータ) (2020-10-26T18:39:32Z) - Moody Learners -- Explaining Competitive Behaviour of Reinforcement
Learning Agents [65.2200847818153]
競合シナリオでは、エージェントは動的環境を持つだけでなく、相手の行動に直接影響される。
エージェントのQ値の観察は通常、その振る舞いを説明する方法であるが、選択されたアクション間の時間的関係は示さない。
論文 参考訳(メタデータ) (2020-07-30T11:30:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。