論文の概要: Multi-Agent Inverse Reinforcement Learning in Real World Unstructured Pedestrian Crowds
- arxiv url: http://arxiv.org/abs/2405.16439v3
- Date: Wed, 26 Mar 2025 21:19:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:49:43.902737
- Title: Multi-Agent Inverse Reinforcement Learning in Real World Unstructured Pedestrian Crowds
- Title(参考訳): 実世界非構造歩行者集団における多エージェント逆強化学習
- Authors: Rohan Chandra, Haresh Karnan, Negar Mehr, Peter Stone, Joydeep Biswas,
- Abstract要約: 実世界の非構造歩行者群を対象としたマルチエージェント最大エントロピー逆強化学習アルゴリズムを提案する。
われわれのアプローチの鍵は単純だが効果的で数学的トリックであり、いわゆるトラクタビリティ・リレーショナル・トレードオフ・トリック(tractability-rationality trade-off trick)と呼ばれている。
我々の重要な発見は、高密度のSpeedwayデータセットにおいて、単一エージェントIRLよりも2倍改善されたトップ7のベースラインの中で、我々のアプローチが1位であることを示している。
- 参考スコア(独自算出の注目度): 40.244244289229925
- License:
- Abstract: Social robot navigation in crowded public spaces such as university campuses, restaurants, grocery stores, and hospitals, is an increasingly important area of research. One of the core strategies for achieving this goal is to understand humans' intent--underlying psychological factors that govern their motion--by learning their reward functions, typically via inverse reinforcement learning (IRL). Despite significant progress in IRL, learning reward functions of multiple agents simultaneously in dense unstructured pedestrian crowds has remained intractable due to the nature of the tightly coupled social interactions that occur in these scenarios \textit{e.g.} passing, intersections, swerving, weaving, etc. In this paper, we present a new multi-agent maximum entropy inverse reinforcement learning algorithm for real world unstructured pedestrian crowds. Key to our approach is a simple, but effective, mathematical trick which we name the so-called tractability-rationality trade-off trick that achieves tractability at the cost of a slight reduction in accuracy. We compare our approach to the classical single-agent MaxEnt IRL as well as state-of-the-art trajectory prediction methods on several datasets including the ETH, UCY, SCAND, JRDB, and a new dataset, called Speedway, collected at a busy intersection on a University campus focusing on dense, complex agent interactions. Our key findings show that, on the dense Speedway dataset, our approach ranks 1st among top 7 baselines with >2X improvement over single-agent IRL, and is competitive with state-of-the-art large transformer-based encoder-decoder models on sparser datasets such as ETH/UCY (ranks 3rd among top 7 baselines).
- Abstract(参考訳): 大学キャンパス、レストラン、食料品店、病院などの混雑した公共空間における社会ロボットナビゲーションは、ますます重要な研究領域となっている。
この目標を達成するための中核的な戦略の1つは、人間の意図を理解することであり、その動きを管理する心理的要因を、典型的には逆強化学習(IRL)を通して、報酬関数を学習することによって理解することである。
IRLの大幅な進歩にもかかわらず、密集した歩行者群で同時に複数のエージェントの報酬関数を学習することは、これらのシナリオで発生する密集した社会的相互作用の性質、交叉、揺動、織布などにより、いまだに困難である。
本稿では,現実の非構造歩行者を対象としたマルチエージェント最大エントロピー逆強化学習アルゴリズムを提案する。
われわれのアプローチの鍵は単純だが効果的な数学的トリックであり、これはトラクタビリティ-リレーショナルトレードオフと呼ばれるトリックと呼ばれ、精度をわずかに下げるコストでトラクタビリティを実現する。
我々は,古典的な単一エージェントであるMaxEnt IRLと,ETH, UCY, SCAND, JRDB, および高密度で複雑なエージェント相互作用に着目した大学キャンパスの混在する交差点で収集されたSpeedwayと呼ばれる新しいデータセットを用いた,最先端の軌道予測手法との比較を行った。
我々の重要な発見は、高密度のSpeedwayデータセットにおいて、我々のアプローチがシングルエージェントIRLよりも2倍改善されたトップ7ベースラインの中で1位であり、ETH/UCY(トップ7ベースラインの中で3位)のようなスペーサーデータセット上の最先端の大規模トランスフォーマーベースのエンコーダデコーダモデルと競合していることを示している。
関連論文リスト
- HEIGHT: Heterogeneous Interaction Graph Transformer for Robot Navigation in Crowded and Constrained Environments [8.974071308749007]
廊下や家具などの環境制約のある密集した対話型群集におけるロボットナビゲーションの問題点について検討する。
従来の手法ではエージェントと障害物間のあらゆる種類の相互作用を考慮できないため、安全で非効率なロボット経路につながる。
本稿では,ロボットナビゲーションポリシーを強化学習で学習するための構造化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-19T00:56:35Z) - Attention Graph for Multi-Robot Social Navigation with Deep
Reinforcement Learning [0.0]
深部強化学習(RL)を用いたマルチエージェント社会認識ナビゲーション戦略の学習方法であるMultiSocを提案する。
マルチエージェントディープRLに関する最近の研究から着想を得た本手法は,エージェント相互作用のグラフベース表現を利用して,エンティティ(歩行者とエージェント)の位置と視野を組み合わせる。
提案手法はソーシャルナビゲーションよりも高速に学習し,複数の異種人との群集ナビゲーションに挑戦する上で,効率的なマルチエージェントの暗黙調整を可能にする。
論文 参考訳(メタデータ) (2024-01-31T15:24:13Z) - Multi-Agent Dynamic Relational Reasoning for Social Robot Navigation [50.01551945190676]
社会ロボットナビゲーションは、日常生活の様々な状況において有用であるが、安全な人間とロボットの相互作用と効率的な軌道計画が必要である。
本稿では, 動的に進化する関係構造を明示的に推論した系統的関係推論手法を提案する。
マルチエージェント軌道予測とソーシャルロボットナビゲーションの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:58:22Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Decentralized Cooperative Multi-Agent Reinforcement Learning with
Exploration [35.75029940279768]
マルコフチーム(Markov team)において、最も基本的な協調環境でマルチエージェント強化学習を研究する。
本稿では,各エージェントが独立してステージベースのVラーニングスタイルのアルゴリズムを実行するアルゴリズムを提案する。
エージェントは、少なくとも$proptowidetildeO (1/epsilon4)$ episodesにおいて、$epsilon$-approximate Nash平衡ポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2021-10-12T02:45:12Z) - Soft Hierarchical Graph Recurrent Networks for Many-Agent Partially
Observable Environments [9.067091068256747]
本稿では,階層型グラフ再帰ネットワーク(HGRN)と呼ばれる新しいネットワーク構造を提案する。
以上の技術に基づいて,Soft-HGRNと呼ばれる値に基づくMADRLアルゴリズムと,SAC-HRGNというアクタクリティカルな変種を提案する。
論文 参考訳(メタデータ) (2021-09-05T09:51:25Z) - Robot Navigation in a Crowd by Integrating Deep Reinforcement Learning
and Online Planning [8.211771115758381]
これは、群衆の中で時間効率と衝突のない道を移動するモバイルロボットにとって、まだオープンで挑戦的な問題です。
深層強化学習はこの問題に対する有望な解決策である。
グラフに基づく深部強化学習手法SG-DQNを提案する。
私たちのモデルは、ロボットが群衆をよりよく理解し、群衆ナビゲーションタスクで0.99以上の高い成功率を達成するのに役立ちます。
論文 参考訳(メタデータ) (2021-02-26T02:17:13Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - End-to-end Contextual Perception and Prediction with Interaction
Transformer [79.14001602890417]
我々は3次元物体の検出と将来の動きを自動運転の文脈で予測する問題に取り組む。
空間的・時間的依存関係を捉えるために,新しいトランスフォーマーアーキテクチャを用いたリカレントニューラルネットワークを提案する。
私たちのモデルはエンドツーエンドでトレーニングでき、リアルタイムで実行されます。
論文 参考訳(メタデータ) (2020-08-13T14:30:12Z) - Human Trajectory Forecasting in Crowds: A Deep Learning Perspective [89.4600982169]
本稿では,既存の深層学習に基づくソーシャルインタラクションのモデル化手法について詳細に分析する。
本稿では、これらの社会的相互作用を効果的に捉えるための知識に基づく2つのデータ駆動手法を提案する。
我々は,人間の軌道予測分野において,重要かつ欠落したコンポーネントであるTrajNet++を大規模に開発する。
論文 参考訳(メタデータ) (2020-07-07T17:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。