論文の概要: Multi-Agent Inverse Reinforcement Learning in Real World Unstructured Pedestrian Crowds
- arxiv url: http://arxiv.org/abs/2405.16439v2
- Date: Sun, 15 Dec 2024 03:48:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:51:46.823263
- Title: Multi-Agent Inverse Reinforcement Learning in Real World Unstructured Pedestrian Crowds
- Title(参考訳): 実世界非構造歩行者集団における多エージェント逆強化学習
- Authors: Rohan Chandra, Haresh Karnan, Negar Mehr, Peter Stone, Joydeep Biswas,
- Abstract要約: 実世界の非構造歩行者群を対象としたマルチエージェント最大エントロピー逆強化学習アルゴリズムを提案する。
われわれのアプローチの鍵は単純だが効果的で数学的トリックであり、いわゆるトラクタビリティ・リレーショナル・トレードオフ・トリック(tractability-rationality trade-off trick)と呼ばれている。
我々の重要な発見は、高密度のSpeedwayデータセットにおいて、単一エージェントIRLよりも2倍改善されたトップ7のベースラインの中で、我々のアプローチが1位であることを示している。
- 参考スコア(独自算出の注目度): 40.244244289229925
- License:
- Abstract: Social robot navigation in crowded public spaces such as university campuses, restaurants, grocery stores, and hospitals, is an increasingly important area of research. One of the core strategies for achieving this goal is to understand humans' intent--underlying psychological factors that govern their motion--by learning their reward functions, typically via inverse reinforcement learning (IRL). Despite significant progress in IRL, learning reward functions of multiple agents simultaneously in dense unstructured pedestrian crowds has remained intractable due to the nature of the tightly coupled social interactions that occur in these scenarios \textit{e.g.} passing, intersections, swerving, weaving, etc. In this paper, we present a new multi-agent maximum entropy inverse reinforcement learning algorithm for real world unstructured pedestrian crowds. Key to our approach is a simple, but effective, mathematical trick which we name the so-called tractability-rationality trade-off trick that achieves tractability at the cost of a slight reduction in accuracy. We compare our approach to the classical single-agent MaxEnt IRL as well as state-of-the-art trajectory prediction methods on several datasets including the ETH, UCY, SCAND, JRDB, and a new dataset, called Speedway, collected at a busy intersection on a University campus focusing on dense, complex agent interactions. Our key findings show that, on the dense Speedway dataset, our approach ranks 1st among top 7 baselines with >2X improvement over single-agent IRL, and is competitive with state-of-the-art large transformer-based encoder-decoder models on sparser datasets such as ETH/UCY (ranks 3rd among top 7 baselines).
- Abstract(参考訳): 大学キャンパス、レストラン、食料品店、病院などの混雑した公共空間における社会ロボットナビゲーションは、ますます重要な研究領域となっている。
この目標を達成するための中核的な戦略の1つは、人間の意図を理解することであり、その動きを管理する心理的要因を、典型的には逆強化学習(IRL)を通して、報酬関数を学習することによって理解することである。
IRLの大幅な進歩にもかかわらず、密集した歩行者群で同時に複数のエージェントの報酬関数を学習することは、これらのシナリオで発生する密集した社会的相互作用の性質、交叉、揺動、織布などにより、いまだに困難である。
本稿では,現実の非構造歩行者を対象としたマルチエージェント最大エントロピー逆強化学習アルゴリズムを提案する。
われわれのアプローチの鍵は単純だが効果的な数学的トリックであり、これはトラクタビリティ-リレーショナルトレードオフと呼ばれるトリックと呼ばれ、精度をわずかに下げるコストでトラクタビリティを実現する。
我々は,古典的な単一エージェントであるMaxEnt IRLと,ETH, UCY, SCAND, JRDB, および高密度で複雑なエージェント相互作用に着目した大学キャンパスの混在する交差点で収集されたSpeedwayと呼ばれる新しいデータセットを用いた,最先端の軌道予測手法との比較を行った。
我々の重要な発見は、高密度のSpeedwayデータセットにおいて、我々のアプローチがシングルエージェントIRLよりも2倍改善されたトップ7ベースラインの中で1位であり、ETH/UCY(トップ7ベースラインの中で3位)のようなスペーサーデータセット上の最先端の大規模トランスフォーマーベースのエンコーダデコーダモデルと競合していることを示している。
関連論文リスト
- VITAL: Visual Teleoperation to Enhance Robot Learning through Human-in-the-Loop Corrections [10.49712834719005]
本稿では,VITAL と呼ばれる双方向操作作業のための低コストな視覚遠隔操作システムを提案する。
われわれのアプローチは、安価なハードウェアとビジュアル処理技術を利用してデモを収集する。
実環境と模擬環境の両方を活用することにより,学習方針の一般化性と堅牢性を高める。
論文 参考訳(メタデータ) (2024-07-30T23:29:47Z) - Online Context Learning for Socially-compliant Navigation [49.609656402450746]
本文では,ロボットが新たな社会環境に適応できるようにするための,オンラインコンテキスト学習手法を紹介する。
コミュニティワイドシミュレータを用いた実験により,本手法は最先端のシミュレータよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-06-17T12:59:13Z) - TRANSIC: Sim-to-Real Policy Transfer by Learning from Online Correction [25.36756787147331]
シミュレーションの学習と実世界への学習は、ジェネラリストロボットを可能にする可能性がある。
そこで本研究では,Human-in-the-loopフレームワークをベースとしたSIM-to-real転送を実現するためのデータ駆動型手法を提案する。
本手法は,家具組立などの複雑かつ接触に富んだ操作作業において,シミュレートから現実への伝達を成功させることができることを示す。
論文 参考訳(メタデータ) (2024-05-16T17:59:07Z) - A Study on Learning Social Robot Navigation with Multimodal Perception [6.052803245103173]
本稿では,大規模実世界のデータセットを用いたマルチモーダル認識を用いた社会ロボットナビゲーションの学習について述べる。
我々は,一助学習と多モーダル学習のアプローチを,異なる社会シナリオにおける古典的なナビゲーション手法のセットと比較する。
その結果、マルチモーダル学習は、データセットと人的学習の両方において、一助学習よりも明らかな優位性を持つことが示された。
論文 参考訳(メタデータ) (2023-09-22T01:47:47Z) - Learning Human-to-Robot Handovers from Point Clouds [63.18127198174958]
視覚に基づく人間ロボットハンドオーバの制御ポリシーを学習する最初のフレームワークを提案する。
シミュレーションベンチマーク,sim-to-sim転送,sim-to-real転送において,ベースラインよりも大きな性能向上を示した。
論文 参考訳(メタデータ) (2023-03-30T17:58:36Z) - Navigating to Objects in the Real World [76.1517654037993]
本稿では,古典的,モジュール的,エンド・ツー・エンドの学習手法と比較した,意味的視覚ナビゲーション手法に関する大規模な実証的研究について述べる。
モジュラー学習は実世界ではうまく機能し、90%の成功率に達しています。
対照的に、エンド・ツー・エンドの学習は、シミュレーションと現実の間の画像領域の差が大きいため、77%のシミュレーションから23%の実際の成功率へと低下する。
論文 参考訳(メタデータ) (2022-12-02T01:10:47Z) - DeXtreme: Transfer of Agile In-hand Manipulation from Simulation to
Reality [64.51295032956118]
我々は人型ロボットの手で頑健な操作を行える政策を訓練する。
本研究は,各種ハードウェアおよびシミュレータのデクスタラス操作におけるsim-to-real転送の可能性を再確認する。
論文 参考訳(メタデータ) (2022-10-25T01:51:36Z) - Zero-Shot Reinforcement Learning on Graphs for Autonomous Exploration
Under Uncertainty [6.42522897323111]
シミュレーション環境で高性能探査政策を自己学習するための枠組みを提案する。
本稿では,グラフニューラルネットワークと深層強化学習を併用した新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-11T02:42:17Z) - PHASE: PHysically-grounded Abstract Social Events for Machine Social
Perception [50.551003004553806]
私たちは、物理的に根拠のある抽象的なソーシャルイベント、フェーズのデータセットを作成します。
フェーズは人間の実験によって検証され、人間は社会出来事において豊かな相互作用を知覚する。
ベースラインモデルとして,最新のフィードフォワードニューラルネットワークよりも優れたベイズ逆計画手法SIMPLEを導入する。
論文 参考訳(メタデータ) (2021-03-02T18:44:57Z) - Sim-to-Real Transfer in Deep Reinforcement Learning for Robotics: a
Survey [0.07366405857677225]
深層強化学習におけるsim-to-realトランスファーの背景について述べる。
本稿では,ドメインランダム化,ドメイン適応,模倣学習,メタラーニング,知識蒸留の3つの主要な手法について概説する。
論文 参考訳(メタデータ) (2020-09-24T21:05:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。