論文の概要: Diversity in Action: General-Sum Multi-Agent Continuous Inverse Optimal
Control
- arxiv url: http://arxiv.org/abs/2004.12678v1
- Date: Mon, 27 Apr 2020 09:53:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 04:38:00.700425
- Title: Diversity in Action: General-Sum Multi-Agent Continuous Inverse Optimal
Control
- Title(参考訳): 動作の多様性:汎用マルチエージェント連続逆最適制御
- Authors: Christian Muench, Frans A. Oliehoek, Dariu M. Gavrila
- Abstract要約: 上記の全ての点に対処するゲーム理論法を提案する。
AV に使われている多くの既存手法と比較して,1) 完全通信を必要としない,2) エージェントごとの報奨が可能である。
我々の実験は、これらのより現実的な仮定が、期待される現実世界の行動によく一致する、質的かつ定量的に異なる報酬予測と将来の行動予測をもたらすことを示した。
- 参考スコア(独自算出の注目度): 12.771478252695399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traffic scenarios are inherently interactive. Multiple decision-makers
predict the actions of others and choose strategies that maximize their
rewards. We view these interactions from the perspective of game theory which
introduces various challenges. Humans are not entirely rational, their rewards
need to be inferred from real-world data, and any prediction algorithm needs to
be real-time capable so that we can use it in an autonomous vehicle (AV). In
this work, we present a game-theoretic method that addresses all of the points
above. Compared to many existing methods used for AVs, our approach does 1) not
require perfect communication, and 2) allows for individual rewards per agent.
Our experiments demonstrate that these more realistic assumptions lead to
qualitatively and quantitatively different reward inference and prediction of
future actions that match better with expected real-world behaviour.
- Abstract(参考訳): トラフィックシナリオは本質的にインタラクティブです。
複数の意思決定者が他人の行動を予測し、報酬を最大化する戦略を選択する。
様々な課題を提起するゲーム理論の観点からこれらの相互作用を考察する。
人間は完全に合理的ではなく、その報酬は現実世界のデータから推測される必要があり、あらゆる予測アルゴリズムは、私たちが自律走行車(AV)で使用できるようにリアルタイムでなければならない。
そこで本研究では,上述のすべてのポイントに対応するゲーム理論的な手法を提案する。
AVに使われている多くの既存手法と比較して、我々のアプローチはそうである。
1)完璧なコミュニケーションを必要とせず
2) エージェントごとに個別の報酬を付与する。
我々の実験は、これらのより現実的な仮定が、期待される現実世界の行動によく一致する、質的かつ定量的に異なる報酬予測と将来の行動予測をもたらすことを示した。
関連論文リスト
- Auto-Encoding Bayesian Inverse Games [36.06617326128679]
ゲームの性質が不明な逆ゲーム問題を考える。
既存の最大推定手法は、未知のパラメータの点推定のみを提供する。
ベイズ的視点を採り、ゲームパラメータの後方分布を構成する。
この構造化されたVAEは、観測された相互作用のラベルのないデータセットから訓練することができる。
論文 参考訳(メタデータ) (2024-02-14T02:17:37Z) - A Minimaximalist Approach to Reinforcement Learning from Human Feedback [49.45285664482369]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
我々は,一連の継続的制御タスクにおいて,報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証した。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - Promptable Behaviors: Personalizing Multi-Objective Rewards from Human
Preferences [53.353022588751585]
本稿では,ロボットエージェントの多種多様な嗜好に対する効率的なパーソナライズを促進する新しいフレームワークであるPromptable Behaviorsを紹介する。
我々は、異なるタイプの相互作用を活用することによって、人間の嗜好を推測する3つの異なる方法を紹介した。
本稿では,ProcTHOR と Robothor のナビゲーションタスクをパーソナライズしたオブジェクトゴールナビゲーションおよびエスケープナビゲーションタスクにおいて,提案手法の評価を行う。
論文 参考訳(メタデータ) (2023-12-14T21:00:56Z) - Learning Human Rewards by Inferring Their Latent Intelligence Levels in
Multi-Agent Games: A Theory-of-Mind Approach with Application to Driving Data [18.750834997334664]
我々は、人間は有理論的であり、他人の意思決定過程を推論する際に異なる知能レベルを持っていると論じる。
学習中の人間の潜在知能レベルを推論する,新しいマルチエージェント逆強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-07T07:48:31Z) - Instance-Aware Predictive Navigation in Multi-Agent Environments [93.15055834395304]
エージェント間の相互作用と将来のシーン構造を予測するIPC(Instance-Aware Predictive Control)アプローチを提案する。
我々は,ego中心の視点でエージェント間のインタラクションを推定するために,新しいマルチインスタンスイベント予測モジュールを採用する。
シーンレベルとインスタンスレベルの両方の予測状態をより有効活用するために、一連のアクションサンプリング戦略を設計します。
論文 参考訳(メタデータ) (2021-01-14T22:21:25Z) - Learning to Anticipate Egocentric Actions by Imagination [60.21323541219304]
我々は,エゴセントリックなアクション予測タスクについて検討し,エゴセントリックなビデオの再生に先立って,将来のアクション秒を予測する。
本手法は, EPIC Kitchens Action Precipation Challenge の既視テストセットと未確認テストセットの両方において, 従来手法を有意に上回った。
論文 参考訳(メタデータ) (2021-01-13T08:04:10Z) - Pedestrian Behavior Prediction via Multitask Learning and Categorical
Interaction Modeling [13.936894582450734]
マルチモーダルデータに頼って歩行者の軌跡や行動を同時に予測するマルチタスク学習フレームワークを提案する。
本モデルでは, トラジェクティブと動作予測を最大22%, 6%向上させる。
論文 参考訳(メタデータ) (2020-12-06T15:57:11Z) - Future Frame Prediction of a Video Sequence [5.660207256468971]
将来の出来事を予測し、予測し、推論する能力は知性の本質である。
将来の出来事を予測し、予測し、推論する能力は知性の本質である。
論文 参考訳(メタデータ) (2020-08-31T15:31:02Z) - SMART: Simultaneous Multi-Agent Recurrent Trajectory Prediction [72.37440317774556]
本稿では,将来の軌道予測における2つの重要な課題に対処する手法を提案する。
エージェントの数に関係なく、トレーニングデータと予測と一定時間の推測の両方において、マルチモーダリティ。
論文 参考訳(メタデータ) (2020-07-26T08:17:10Z) - Diverse and Admissible Trajectory Forecasting through Multimodal Context
Understanding [46.52703817997932]
自律走行におけるマルチエージェント軌道予測には、周囲の車両や歩行者の挙動を正確に予測するエージェントが必要である。
マルチモーダル世界から複数の入力信号を合成するモデルを提案する。
従来の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-06T13:59:39Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。