論文の概要: Deep R-Learning for Continual Area Sweeping
- arxiv url: http://arxiv.org/abs/2006.00589v1
- Date: Sun, 31 May 2020 19:15:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 12:43:56.628312
- Title: Deep R-Learning for Continual Area Sweeping
- Title(参考訳): 地域連続学習のための深部Rラーニング
- Authors: Rishi Shah, Yuqian Jiang, Justin Hart, Peter Stone
- Abstract要約: 非均一なカバレッジプランニングは、ロボット工学においてよく研究されている問題である。
本稿では,ロボットが事前に関連する事象の分布を把握していないような,一様でないカバレッジのバリエーションについて考察する。
半マルコフ決定過程における強化学習に基づく新しい手法を提案する。
- 参考スコア(独自算出の注目度): 41.832987254467284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Coverage path planning is a well-studied problem in robotics in which a robot
must plan a path that passes through every point in a given area repeatedly,
usually with a uniform frequency. To address the scenario in which some points
need to be visited more frequently than others, this problem has been extended
to non-uniform coverage planning. This paper considers the variant of
non-uniform coverage in which the robot does not know the distribution of
relevant events beforehand and must nevertheless learn to maximize the rate of
detecting events of interest. This continual area sweeping problem has been
previously formalized in a way that makes strong assumptions about the
environment, and to date only a greedy approach has been proposed. We
generalize the continual area sweeping formulation to include fewer
environmental constraints, and propose a novel approach based on reinforcement
learning in a Semi-Markov Decision Process. This approach is evaluated in an
abstract simulation and in a high fidelity Gazebo simulation. These evaluations
show significant improvement upon the existing approach in general settings,
which is especially relevant in the growing area of service robotics.
- Abstract(参考訳): カバレッジパス計画(英語: cover path planning)は、ロボットが特定の領域のすべての点を通過する経路を、通常一様周波数で繰り返し計画しなければならない、ロボット工学におけるよく研究された問題である。
いくつかのポイントをもっと頻繁に訪問する必要があるシナリオに対処するため、この問題は一様でないカバレッジ計画に拡張されている。
本稿では,ロボットが事前に関連事象の分布を把握せず,かつ,関心事象の検出率の最大化を学ばなければならない,一様でないカバレッジのバリエーションについて考察する。
この連続的な地域浄化問題は、環境に関する強い仮定を定式化しており、これまでは強欲なアプローチが提案されているのみである。
環境制約を少なく抑えるために, 連続的なエリアスイーピング定式化を一般化し, 半マルコフ決定過程における強化学習に基づく新しいアプローチを提案する。
このアプローチは抽象シミュレーションおよび高忠実度ガゼボシミュレーションで評価される。
これらの評価は、サービスロボティクスの成長分野に特に関係する、一般的な設定における既存のアプローチにおいて大きな改善を示している。
関連論文リスト
- Consciousness-Inspired Spatio-Temporal Abstractions for Better
Generalization in Reinforcement Learning [88.38772200150387]
Skipperは、タスク時間を利用して、新しい状況下でスキルを学ぶモデルベースの強化学習エージェントである。
与えられたものをより小さく、より管理しやすいサブタスクに自動的に一般化し、スパースな意思決定を可能にする。
論文 参考訳(メタデータ) (2023-09-30T02:25:18Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Learning Coverage Paths in Unknown Environments with Deep Reinforcement
Learning [19.892847977626353]
被覆経路計画 (CPP) は、制限された領域の自由空間全体をカバーする経路を見つける問題である。
この課題に対する強化学習の適性について検討する。
本稿では,フロンティアに基づく計算可能なエゴセントリックマップ表現と,全変動に基づく新たな報酬項を提案する。
論文 参考訳(メタデータ) (2023-06-29T14:32:06Z) - Autonomous search of real-life environments combining dynamical
system-based path planning and unsupervised learning [0.0]
本稿では,障害物回避,カオス軌道分散,および正確なカバレッジ計算のためのアルゴリズムを提案する。
アルゴリズムは概してスムーズなカオス軌道を生成し、環境をスキャンする。
このアプリケーションの性能は、従来の最適経路プランナーに匹敵するものだった。
論文 参考訳(メタデータ) (2023-05-03T00:09:31Z) - Risk-Sensitive and Robust Model-Based Reinforcement Learning and
Planning [2.627046865670577]
我々は、逐次意思決定における計画と強化学習のアプローチに対処する。
多くの実世界の領域において、完全に正確なモデルやシミュレータを構築することは不可能である。
私たちはモデルベースのアルゴリズムに焦点をあてて、この目標に対して多くのコントリビューションを行います。
論文 参考訳(メタデータ) (2023-04-02T16:44:14Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Evaluating Guiding Spaces for Motion Planning [2.384084215091134]
我々は、同じ枠組みの下で、見かけ上の異なる多くの先行研究をカプセル化するエンフモーション計画誘導空間を定義する。
また,得られたバイアスサンプリングの品質に焦点をあてた案内計画を評価するための情報理論手法を提案する。
論文 参考訳(メタデータ) (2022-10-16T21:17:51Z) - Incremental 3D Scene Completion for Safe and Efficient Exploration
Mapping and Planning [60.599223456298915]
本研究では,情報,安全,解釈可能な地図作成と計画に3次元シーン補完を活用することによって,深層学習を探索に統合する新しい手法を提案する。
本手法は,地図の精度を最小限に抑えることで,ベースラインに比べて環境のカバレッジを73%高速化できることを示す。
最終地図にシーン完了が含まれていなくても、ロボットがより情報的な経路を選択するように誘導し、ロボットのセンサーでシーンの測定を35%高速化できることが示される。
論文 参考訳(メタデータ) (2022-08-17T14:19:33Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。