論文の概要: Double Q-Learning for Citizen Relocation During Natural Hazards
- arxiv url: http://arxiv.org/abs/2209.03800v2
- Date: Mon, 12 Sep 2022 16:24:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 10:35:09.811654
- Title: Double Q-Learning for Citizen Relocation During Natural Hazards
- Title(参考訳): 二重Q-Learningによる自然災害時の市民移住
- Authors: Alysson Ribeiro da Silva
- Abstract要約: 強化学習アプローチは、自律ロボットが、人で構成される救助隊を待つことなく、自ら移動することで、市民の命を救えるソリューションの展開に使用することができる。
本研究では,部分観測可能なマルコフ決定プロセスに基づく市民移住の解決策を採用する。
その結果, 簡単なシナリオでは100%以上, 難しいシナリオでは50%近くの性能を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Natural disasters can cause substantial negative socio-economic impacts
around the world, due to mortality, relocation, rates, and reconstruction
decisions. Robotics has been successfully applied to identify and rescue
victims during the occurrence of a natural hazard. However, little effort has
been taken to deploy solutions where an autonomous robot can save the life of a
citizen by itself relocating it, without the need to wait for a rescue team
composed of humans. Reinforcement learning approaches can be used to deploy
such a solution, however, one of the most famous algorithms to deploy it, the
Q-learning, suffers from biased results generated when performing its learning
routines. In this research a solution for citizen relocation based on Partially
Observable Markov Decision Processes is adopted, where the capability of the
Double Q-learning in relocating citizens during a natural hazard is evaluated
under a proposed hazard simulation engine based on a grid world. The
performance of the solution was measured as a success rate of a citizen
relocation procedure, where the results show that the technique portrays a
performance above 100% for easy scenarios and near 50% for hard ones.
- Abstract(参考訳): 自然災害は、死亡率、転職率、復興の決定により、世界中の社会経済に重大な悪影響を及ぼす可能性がある。
ロボット工学は自然災害発生時の被害者の特定と救助に成功している。
しかし、自律ロボットは、人で構成される救助隊を待つことなく、自ら移動することで、市民の命を救えるようなソリューションを展開するための努力はほとんど行われていない。
強化学習アプローチはそのようなソリューションのデプロイに使用することができるが、そのデプロイで最も有名なアルゴリズムのひとつであるQラーニングは、学習ルーチンの実行時に発生するバイアスのある結果に悩まされている。
本研究は, 自然災害時の住民移動における二重Q-ラーニングの能力を, グリッド世界に基づくリスクシミュレーションエンジンにより評価する, 部分観測可能なマルコフ決定プロセスに基づく市民移住の解決策を採用するものである。
結果から,簡単なシナリオでは100%以上,ハードシナリオでは50%近い性能を示すことがわかった。
関連論文リスト
- A GP-based Robust Motion Planning Framework for Agile Autonomous Robot
Navigation and Recovery in Unknown Environments [6.859965454961918]
本稿では,将来の動作計画失敗のリスクを積極的に検出するモデルを提案する。
リスクが一定の閾値を超えると、回復動作がトリガーされる。
我々のフレームワークは、計画立案者の失敗を予測し、計画立案者の成功の可能性を示すためにロボットを回復できる。
論文 参考訳(メタデータ) (2024-02-02T18:27:21Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - DiAReL: Reinforcement Learning with Disturbance Awareness for Robust
Sim2Real Policy Transfer in Robot Control [0.0]
遅延マルコフ決定プロセスは、最近コミットされたアクションの有限時間ウィンドウでエージェントの状態空間を拡大することでマルコフ特性を満たす。
本稿では,遅延した環境下での乱れ増進型マルコフ決定プロセスを導入し,政治強化学習アルゴリズムのトレーニングにおける乱れ推定を取り入れた新しい表現法を提案する。
論文 参考訳(メタデータ) (2023-06-15T10:11:38Z) - Enhanced method for reinforcement learning based dynamic obstacle
avoidance by assessment of collision risk [0.0]
本稿では,障害物回避作業の難易度を制御できる一般的な訓練環境を提案する。
トレーニングをタスクの難しさにシフトすることで,最終的なパフォーマンスを大幅に向上できることがわかった。
論文 参考訳(メタデータ) (2022-12-08T07:46:42Z) - You Only Live Once: Single-Life Reinforcement Learning [124.1738675154651]
多くの現実世界の状況では、そのタスクを繰り返し実行できるポリシーを学ぶことではなく、単一のトライアルで1回だけ新しいタスクを成功させることが目的である。
エージェントが介入なしにひとつのエピソード内でタスクを完了しなければならない問題設定を形式化する。
本稿では,分散マッチング戦略を用いたQ$-weighted adversarial Learning (QWALE)を提案する。
論文 参考訳(メタデータ) (2022-10-17T09:00:11Z) - Don't Start From Scratch: Leveraging Prior Data to Automate Robotic
Reinforcement Learning [70.70104870417784]
強化学習(RL)アルゴリズムは、ロボットシステムの自律的なスキル獲得を可能にするという約束を持っている。
現実のロボットRLは、通常、環境をリセットするためにデータ収集と頻繁な人間の介入を必要とする。
本研究では,従来のタスクから収集した多様なオフラインデータセットを効果的に活用することで,これらの課題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2022-07-11T08:31:22Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - Zero-Shot Reinforcement Learning on Graphs for Autonomous Exploration
Under Uncertainty [6.42522897323111]
シミュレーション環境で高性能探査政策を自己学習するための枠組みを提案する。
本稿では,グラフニューラルネットワークと深層強化学習を併用した新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-11T02:42:17Z) - Text Analytics for Resilience-Enabled Extreme Events Reconnaissance [7.54569938687922]
本研究は,(1)太平洋地震工学研究センター(PEER)サーバがホストする自動データ(ニュース・ソーシャルメディア)収集,(2)偵察報告の自動生成,(3)復旧時間などの災害後の情報を抽出するためのソーシャルメディアの利用に焦点を当てた。
論文 参考訳(メタデータ) (2020-11-26T01:43:29Z) - Cautious Adaptation For Reinforcement Learning in Safety-Critical
Settings [129.80279257258098]
都市運転のような現実の安全クリティカルな目標設定における強化学習(RL)は危険である。
非安全クリティカルな「ソース」環境でエージェントが最初に訓練する「安全クリティカル適応」タスクセットを提案する。
多様な環境における事前経験がリスクを見積もるためにエージェントに装備するという直感に基づくソリューションアプローチであるCARLを提案する。
論文 参考訳(メタデータ) (2020-08-15T01:40:59Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。