論文の概要: Deep reinforcement learning with a particle dynamics environment applied
to emergency evacuation of a room with obstacles
- arxiv url: http://arxiv.org/abs/2012.00065v1
- Date: Mon, 30 Nov 2020 19:34:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-06 19:56:56.646137
- Title: Deep reinforcement learning with a particle dynamics environment applied
to emergency evacuation of a room with obstacles
- Title(参考訳): 障害物のある部屋の緊急避難に応用した粒子動力学環境による深部強化学習
- Authors: Yihao Zhang, Zhaojie Chai and George Lykotrafitis
- Abstract要約: 本研究では,最も速い避難経路を見つけるためにエージェントを訓練するために,社会力モデルと連動して深層強化学習アルゴリズムを開発する。
まず, 障害のない部屋の場合, 結果として生じる自己駆動力は, 社会的力モデルのように出口に直接向けられることを示す。
本手法は, 障害物が凸である場合に, 社会力モデルと類似した結果が得られることを示す。
- 参考スコア(独自算出の注目度): 3.031582944011582
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A very successful model for simulating emergency evacuation is the
social-force model. At the heart of the model is the self-driven force that is
applied to an agent and is directed towards the exit. However, it is not clear
if the application of this force results in optimal evacuation, especially in
complex environments with obstacles. Here, we develop a deep reinforcement
learning algorithm in association with the social force model to train agents
to find the fastest evacuation path. During training, we penalize every step of
an agent in the room and give zero reward at the exit. We adopt the Dyna-Q
learning approach. We first show that in the case of a room without obstacles
the resulting self-driven force points directly towards the exit as in the
social force model and that the median exit time intervals calculated using the
two methods are not significantly different. Then, we investigate evacuation of
a room with one obstacle and one exit. We show that our method produces similar
results with the social force model when the obstacle is convex. However, in
the case of concave obstacles, which sometimes can act as traps for agents
governed purely by the social force model and prohibit complete room
evacuation, our approach is clearly advantageous since it derives a policy that
results in object avoidance and complete room evacuation without additional
assumptions. We also study evacuation of a room with multiple exits. We show
that agents are able to evacuate efficiently from the nearest exit through a
shared network trained for a single agent. Finally, we test the robustness of
the Dyna-Q learning approach in a complex environment with multiple exits and
obstacles. Overall, we show that our model can efficiently simulate emergency
evacuation in complex environments with multiple room exits and obstacles where
it is difficult to obtain an intuitive rule for fast evacuation.
- Abstract(参考訳): 緊急避難をシミュレーションする非常に成功したモデルが社会力モデルである。
モデルの中心は、エージェントに適用される自己駆動力であり、出口に向かっている。
しかし、特に障害物のある複雑な環境において、この力の適用が最適避難をもたらすかどうかは明らかでない。
そこで,我々は,ソーシャルフォースモデルと連動して,エージェントの避難経路を学習する深層強化学習アルゴリズムを開発した。
訓練中、私たちは部屋のエージェントのすべてのステップを罰し、出口で報酬をゼロにします。
私たちはDyna-Q学習アプローチを採用しています。
まず, 障害物のない部屋の場合, 自己駆動力は社会力モデルのように出口に直接向けられ, 2つの方法によって計算される中央の出口時間間隔はそれほど大きく異なるものではないことを示す。
そして,1つの障害物と1つの出口を有する部屋の避難を調査した。
本手法は,障害物が凸である場合に,社会力モデルと類似した結果が得られることを示す。
しかし,社会力モデルによって純粋に支配されるエージェントの罠として機能し,完全な部屋退避を禁止しているコンケーブ障害の場合,追加の仮定なしにオブジェクト回避と完全な部屋退避をもたらす方針を導出するため,我々のアプローチは明らかに有利である。
また,出口が複数ある部屋の避難についても検討した。
エージェントは1つのエージェントのために訓練された共有ネットワークを介して最寄りの出口から効率的に避難できることを示す。
最後に、複数の出口と障害物のある複雑な環境でDyna-Q学習アプローチの堅牢性をテストする。
本研究では,複数の部屋の出口や障害物のある複雑な環境下での緊急避難を効果的にシミュレートし,迅速な避難のための直感的なルールを得るのが困難であることを示す。
関連論文リスト
- Enhancing Building Safety Design for Active Shooter Incidents: Exploration of Building Exit Parameters using Reinforcement Learning-Based Simulations [1.3374504717801061]
本研究では,既存研究のギャップに対処する強化学習に基づくシミュレーション手法を提案する。
現実的なオフィス環境下でアクティブシューティングをシミュレートする自律エージェントを開発した。
論文 参考訳(メタデータ) (2024-07-15T05:08:38Z) - RACER: Epistemic Risk-Sensitive RL Enables Fast Driving with Fewer Crashes [57.319845580050924]
本稿では,リスク感応制御と適応行動空間のカリキュラムを組み合わせた強化学習フレームワークを提案する。
提案アルゴリズムは,現実世界のオフロード運転タスクに対して,高速なポリシーを学習可能であることを示す。
論文 参考訳(メタデータ) (2024-05-07T23:32:36Z) - Denoising Heat-inspired Diffusion with Insulators for Collision Free
Motion Planning [3.074694788117593]
拡散モデルは、柔軟性とマルチモダリティのために、ロボット工学の強力なツールとして台頭している。
本稿では,到達可能な目標のみを同時に生成し,障害物を回避する動作を計画する手法を提案する。
論文 参考訳(メタデータ) (2023-10-19T09:39:07Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Enhanced method for reinforcement learning based dynamic obstacle
avoidance by assessment of collision risk [0.0]
本稿では,障害物回避作業の難易度を制御できる一般的な訓練環境を提案する。
トレーニングをタスクの難しさにシフトすることで,最終的なパフォーマンスを大幅に向上できることがわかった。
論文 参考訳(メタデータ) (2022-12-08T07:46:42Z) - Optimizing Trajectories for Highway Driving with Offline Reinforcement
Learning [11.970409518725491]
自律運転に対する強化学習に基づくアプローチを提案する。
我々のエージェントの性能を他の4つのハイウェイ運転エージェントと比較する。
ランダムに収集されたデータを持つオフライントレーニングエージェントが、望ましい速度に可能な限り近い速度で、他のエージェントよりも優れた速度で、スムーズに駆動することを学ぶことを実証します。
論文 参考訳(メタデータ) (2022-03-21T13:13:08Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Vision-Based Mobile Robotics Obstacle Avoidance With Deep Reinforcement
Learning [49.04274612323564]
障害物回避は、移動ロボットの自律ナビゲーションのための根本的かつ困難な問題です。
本稿では,ロボットが単一眼カメラにのみ依存しなければならない単純な3D環境における障害物回避の問題を検討する。
データ駆動型エンドツーエンドディープラーニングアプローチとして,障害回避問題に取り組む。
論文 参考訳(メタデータ) (2021-03-08T13:05:46Z) - Learning-'N-Flying: A Learning-based, Decentralized Mission Aware UAS
Collision Avoidance Scheme [0.0]
Learning-'N-Flying (LNF) はマルチUAS衝突回避(CA)フレームワークである。
分散化され、オンザフライで動作し、異なるオペレータが管理する自律uasが複雑なミッションを安全に実行できるようにする。
提案手法はオンライン(数ミリ秒単位の計算時間)で動作可能であり,特定の仮定下では,最悪の場合,1%未満の障害率であることを示す。
論文 参考訳(メタデータ) (2021-01-25T20:38:17Z) - Congestion-aware Evacuation Routing using Augmented Reality Devices [96.68280427555808]
複数の目的地間でリアルタイムに個別の避難経路を生成する屋内避難のための渋滞対応ルーティングソリューションを提案する。
建物内の混雑分布をモデル化するために、ユーザエンド拡張現実(AR)デバイスから避難者の位置を集約して、オンザフライで取得した人口密度マップを用いる。
論文 参考訳(メタデータ) (2020-04-25T22:54:35Z) - State-Only Imitation Learning for Dexterous Manipulation [63.03621861920732]
本稿では,国家のみの模倣学習について考察する。
我々は、逆ダイナミクスモデルをトレーニングし、状態のみのデモンストレーションのアクションを予測するためにそれを使用します。
我々の手法は状態-作用アプローチと同等に動作し、RL単独よりもかなり優れています。
論文 参考訳(メタデータ) (2020-04-07T17:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。