論文の概要: Improving the Generalization of Unseen Crowd Behaviors for Reinforcement Learning based Local Motion Planners
- arxiv url: http://arxiv.org/abs/2410.12232v1
- Date: Wed, 16 Oct 2024 04:46:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:43:12.655044
- Title: Improving the Generalization of Unseen Crowd Behaviors for Reinforcement Learning based Local Motion Planners
- Title(参考訳): 強化学習に基づく局所的な運動プランナーのための見えない群集行動の一般化の改善
- Authors: Wen Zheng Terence Ng, Jianda Chen, Sinno Jialin Pan, Tianwei Zhang,
- Abstract要約: 現在の強化学習ベースのモーションプランナーは、歩行者の動きをシミュレートするための単一のポリシーに依存している。
本稿では,情報理論の目的を最大化することにより,エージェントの多様性を高める効率的な手法を提案する。
未確認の群衆に対するエージェントの堅牢性を評価するために,歩行者の群集行動に触発された多様なシナリオを提案する。
- 参考スコア(独自算出の注目度): 36.684452789236914
- License:
- Abstract: Deploying a safe mobile robot policy in scenarios with human pedestrians is challenging due to their unpredictable movements. Current Reinforcement Learning-based motion planners rely on a single policy to simulate pedestrian movements and could suffer from the over-fitting issue. Alternatively, framing the collision avoidance problem as a multi-agent framework, where agents generate dynamic movements while learning to reach their goals, can lead to conflicts with human pedestrians due to their homogeneity. To tackle this problem, we introduce an efficient method that enhances agent diversity within a single policy by maximizing an information-theoretic objective. This diversity enriches each agent's experiences, improving its adaptability to unseen crowd behaviors. In assessing an agent's robustness against unseen crowds, we propose diverse scenarios inspired by pedestrian crowd behaviors. Our behavior-conditioned policies outperform existing works in these challenging scenes, reducing potential collisions without additional time or travel.
- Abstract(参考訳): 安全な移動ロボットポリシーを歩行者のシナリオに展開することは、予測不可能な動きのために困難である。
現在の強化学習ベースのモーションプランナーは、歩行者の動きをシミュレートする単一のポリシーに依存しており、過度に適合する問題に悩まされる可能性がある。
あるいは、衝突回避問題をマルチエージェントフレームワークとしてフレーミングすることで、エージェントは目標を達成するために学習しながらダイナミックな動きを発生させ、均質性のために歩行者と衝突する可能性がある。
この問題に対処するために,情報理論の目的を最大化することにより,エージェントの多様性を単一ポリシー内で向上する効率的な手法を提案する。
この多様性は各エージェントの経験を豊かにし、目に見えない群衆の行動への適応性を向上させる。
未確認の群衆に対するエージェントの堅牢性を評価するために,歩行者の群集行動に触発された多様なシナリオを提案する。
私たちの行動条件付きポリシーは、これらの困難なシーンにおける既存の作業よりも優れており、追加の時間や旅行なしに潜在的な衝突を減らすことができます。
関連論文リスト
- Multi-granular Adversarial Attacks against Black-box Neural Ranking Models [111.58315434849047]
多粒性摂動を取り入れた高品質な逆数例を作成する。
我々は,多粒体攻撃を逐次的意思決定プロセスに変換する。
本手法は,攻撃の有効性と非受容性の両方において,一般的なベースラインを超えている。
論文 参考訳(メタデータ) (2024-04-02T02:08:29Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Robust multi-agent coordination via evolutionary generation of auxiliary
adversarial attackers [23.15190337027283]
副次的攻撃者生成によるロバスト多エージェント協調(ROMANCE)を提案する。
ROMANCEは、訓練中に多種多様で強力な補助的敵攻撃に遭遇することを可能にし、様々な政策摂動の下で高い堅牢性を達成する。
品質の目標は、エゴシステムのコーディネーション効果を最小限に抑えることであり、攻撃者間の振る舞いを多様化するために、新しい多様性レギュレータを適用することである。
論文 参考訳(メタデータ) (2023-05-10T05:29:47Z) - Robust and Versatile Bipedal Jumping Control through Reinforcement
Learning [141.56016556936865]
この研究は、トルク制御された二足歩行ロボットが実世界で頑丈で多目的なダイナミックジャンプを行えるようにすることで、二足歩行ロボットの機敏さの限界を推し進めることを目的としている。
本稿では,ロボットが様々な場所や方向へジャンプするなど,さまざまなジャンプタスクを達成するための強化学習フレームワークを提案する。
我々は,ロボットの長期入出力(I/O)履歴を符号化し,短期I/O履歴への直接アクセスを可能にする新しいポリシー構造を開発する。
論文 参考訳(メタデータ) (2023-02-19T01:06:09Z) - ForceFormer: Exploring Social Force and Transformer for Pedestrian
Trajectory Prediction [3.5163219821672618]
我々は、ForceFormerと呼ばれる新しい目標ベースの軌道予測器を提案する。
我々は目的地からの駆動力を利用して歩行者の目標の誘導を効率的にシミュレートする。
提案手法は,最先端モデルを用いた距離誤差によって測定されたオンパー性能を実現する。
論文 参考訳(メタデータ) (2023-02-15T10:54:14Z) - An Energy-aware and Fault-tolerant Deep Reinforcement Learning based
approach for Multi-agent Patrolling Problems [0.5008597638379226]
モデルのない深層マルチエージェント強化学習に基づく手法を提案する。
エージェントは、様々な未知のダイナミクスや要因で環境をパトロールするように訓練される。
連続的なパトロールを支援するために自動的に充電することができる。
このアーキテクチャは、パトロールシステムを提供し、エージェントの障害を許容し、サプリメントエージェントを追加して、失敗したエージェントを置き換えたり、全体的なパトロール性能を向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T01:38:35Z) - Enhanced method for reinforcement learning based dynamic obstacle
avoidance by assessment of collision risk [0.0]
本稿では,障害物回避作業の難易度を制御できる一般的な訓練環境を提案する。
トレーニングをタスクの難しさにシフトすることで,最終的なパフォーマンスを大幅に向上できることがわかった。
論文 参考訳(メタデータ) (2022-12-08T07:46:42Z) - Influencing Towards Stable Multi-Agent Interactions [12.477674452685756]
多エージェント環境での学習は、相手やパートナーの行動の変化によってもたらされる非定常性のために困難である。
本稿では,他のエージェントの安定化戦略に積極的に影響を与えるアルゴリズムを提案する。
各種シミュレーション環境におけるタスク報酬の最大化における安定化の有効性を示す。
論文 参考訳(メタデータ) (2021-10-05T16:46:04Z) - Reinforcement Learning for Robust Parameterized Locomotion Control of
Bipedal Robots [121.42930679076574]
シミュレーションにおけるロコモーションポリシをトレーニングするためのモデルフリー強化学習フレームワークを提案する。
ドメインランダム化は、システムダイナミクスのバリエーションにまたがる堅牢な振る舞いを学ぶためのポリシーを奨励するために使用されます。
本研究では、目標歩行速度、歩行高さ、旋回ヨーなどの多目的歩行行動について示す。
論文 参考訳(メタデータ) (2021-03-26T07:14:01Z) - Learning Latent Representations to Influence Multi-Agent Interaction [65.44092264843538]
エージェントのポリシーの潜在表現を学習するための強化学習に基づくフレームワークを提案する。
提案手法は代替手段よりも優れており,他のエージェントに影響を与えることを学習している。
論文 参考訳(メタデータ) (2020-11-12T19:04:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。