論文の概要: Double Q-Learning for Citizen Relocation During Natural Hazards
- arxiv url: http://arxiv.org/abs/2209.03800v2
- Date: Mon, 12 Sep 2022 16:24:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 10:35:09.811654
- Title: Double Q-Learning for Citizen Relocation During Natural Hazards
- Title(参考訳): 二重Q-Learningによる自然災害時の市民移住
- Authors: Alysson Ribeiro da Silva
- Abstract要約: 強化学習アプローチは、自律ロボットが、人で構成される救助隊を待つことなく、自ら移動することで、市民の命を救えるソリューションの展開に使用することができる。
本研究では,部分観測可能なマルコフ決定プロセスに基づく市民移住の解決策を採用する。
その結果, 簡単なシナリオでは100%以上, 難しいシナリオでは50%近くの性能を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Natural disasters can cause substantial negative socio-economic impacts
around the world, due to mortality, relocation, rates, and reconstruction
decisions. Robotics has been successfully applied to identify and rescue
victims during the occurrence of a natural hazard. However, little effort has
been taken to deploy solutions where an autonomous robot can save the life of a
citizen by itself relocating it, without the need to wait for a rescue team
composed of humans. Reinforcement learning approaches can be used to deploy
such a solution, however, one of the most famous algorithms to deploy it, the
Q-learning, suffers from biased results generated when performing its learning
routines. In this research a solution for citizen relocation based on Partially
Observable Markov Decision Processes is adopted, where the capability of the
Double Q-learning in relocating citizens during a natural hazard is evaluated
under a proposed hazard simulation engine based on a grid world. The
performance of the solution was measured as a success rate of a citizen
relocation procedure, where the results show that the technique portrays a
performance above 100% for easy scenarios and near 50% for hard ones.
- Abstract(参考訳): 自然災害は、死亡率、転職率、復興の決定により、世界中の社会経済に重大な悪影響を及ぼす可能性がある。
ロボット工学は自然災害発生時の被害者の特定と救助に成功している。
しかし、自律ロボットは、人で構成される救助隊を待つことなく、自ら移動することで、市民の命を救えるようなソリューションを展開するための努力はほとんど行われていない。
強化学習アプローチはそのようなソリューションのデプロイに使用することができるが、そのデプロイで最も有名なアルゴリズムのひとつであるQラーニングは、学習ルーチンの実行時に発生するバイアスのある結果に悩まされている。
本研究は, 自然災害時の住民移動における二重Q-ラーニングの能力を, グリッド世界に基づくリスクシミュレーションエンジンにより評価する, 部分観測可能なマルコフ決定プロセスに基づく市民移住の解決策を採用するものである。
結果から,簡単なシナリオでは100%以上,ハードシナリオでは50%近い性能を示すことがわかった。
関連論文リスト
- MEReQ: Max-Ent Residual-Q Inverse RL for Sample-Efficient Alignment from Intervention [81.56607128684723]
本稿では,人間の介入によるサンプル効率向上を目的としたMEReQ(Maximum-Entropy Residual-Q Inverse Reinforcement Learning)を紹介する。
MereQは、人間の専門家と以前の政策の根底にある報酬関数との相違を捉える残差報酬関数を推論する。
その後、Residual Q-Learning(RQL)を使用して、ポリシーをこの残留報酬関数を使用して人間の好みと整合させる。
論文 参考訳(メタデータ) (2024-06-24T01:51:09Z) - RACER: Epistemic Risk-Sensitive RL Enables Fast Driving with Fewer Crashes [57.319845580050924]
本稿では,リスク感応制御と適応行動空間のカリキュラムを組み合わせた強化学習フレームワークを提案する。
提案アルゴリズムは,現実世界のオフロード運転タスクに対して,高速なポリシーを学習可能であることを示す。
論文 参考訳(メタデータ) (2024-05-07T23:32:36Z) - Belief Aided Navigation using Bayesian Reinforcement Learning for Avoiding Humans in Blind Spots [0.0]
本研究では、部分的に観測可能なマルコフ決定プロセスフレームワークに基づく新しいアルゴリズムBNBRL+を導入し、観測不能領域のリスクを評価する。
ロボット、人間、そして推論された信念のダイナミクスを統合し、ナビゲーションパスを決定し、報酬関数に社会規範を埋め込む。
このモデルでは、視認性に限界があり、障害物を動的に回避できるため、自動運転車の安全性と信頼性を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-03-15T08:50:39Z) - A GP-based Robust Motion Planning Framework for Agile Autonomous Robot
Navigation and Recovery in Unknown Environments [6.859965454961918]
本稿では,将来の動作計画失敗のリスクを積極的に検出するモデルを提案する。
リスクが一定の閾値を超えると、回復動作がトリガーされる。
我々のフレームワークは、計画立案者の失敗を予測し、計画立案者の成功の可能性を示すためにロボットを回復できる。
論文 参考訳(メタデータ) (2024-02-02T18:27:21Z) - DiAReL: Reinforcement Learning with Disturbance Awareness for Robust
Sim2Real Policy Transfer in Robot Control [0.0]
遅延マルコフ決定プロセスは、最近コミットされたアクションの有限時間ウィンドウでエージェントの状態空間を拡大することでマルコフ特性を満たす。
本稿では,遅延した環境下での乱れ増進型マルコフ決定プロセスを導入し,政治強化学習アルゴリズムのトレーニングにおける乱れ推定を取り入れた新しい表現法を提案する。
論文 参考訳(メタデータ) (2023-06-15T10:11:38Z) - You Only Live Once: Single-Life Reinforcement Learning [124.1738675154651]
多くの現実世界の状況では、そのタスクを繰り返し実行できるポリシーを学ぶことではなく、単一のトライアルで1回だけ新しいタスクを成功させることが目的である。
エージェントが介入なしにひとつのエピソード内でタスクを完了しなければならない問題設定を形式化する。
本稿では,分散マッチング戦略を用いたQ$-weighted adversarial Learning (QWALE)を提案する。
論文 参考訳(メタデータ) (2022-10-17T09:00:11Z) - Don't Start From Scratch: Leveraging Prior Data to Automate Robotic
Reinforcement Learning [70.70104870417784]
強化学習(RL)アルゴリズムは、ロボットシステムの自律的なスキル獲得を可能にするという約束を持っている。
現実のロボットRLは、通常、環境をリセットするためにデータ収集と頻繁な人間の介入を必要とする。
本研究では,従来のタスクから収集した多様なオフラインデータセットを効果的に活用することで,これらの課題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2022-07-11T08:31:22Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - Zero-Shot Reinforcement Learning on Graphs for Autonomous Exploration
Under Uncertainty [6.42522897323111]
シミュレーション環境で高性能探査政策を自己学習するための枠組みを提案する。
本稿では,グラフニューラルネットワークと深層強化学習を併用した新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-11T02:42:17Z) - Text Analytics for Resilience-Enabled Extreme Events Reconnaissance [7.54569938687922]
本研究は,(1)太平洋地震工学研究センター(PEER)サーバがホストする自動データ(ニュース・ソーシャルメディア)収集,(2)偵察報告の自動生成,(3)復旧時間などの災害後の情報を抽出するためのソーシャルメディアの利用に焦点を当てた。
論文 参考訳(メタデータ) (2020-11-26T01:43:29Z) - Cautious Adaptation For Reinforcement Learning in Safety-Critical
Settings [129.80279257258098]
都市運転のような現実の安全クリティカルな目標設定における強化学習(RL)は危険である。
非安全クリティカルな「ソース」環境でエージェントが最初に訓練する「安全クリティカル適応」タスクセットを提案する。
多様な環境における事前経験がリスクを見積もるためにエージェントに装備するという直感に基づくソリューションアプローチであるCARLを提案する。
論文 参考訳(メタデータ) (2020-08-15T01:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。