論文の概要: Deep R-Learning for Continual Area Sweeping
- arxiv url: http://arxiv.org/abs/2006.00589v1
- Date: Sun, 31 May 2020 19:15:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 12:43:56.628312
- Title: Deep R-Learning for Continual Area Sweeping
- Title(参考訳): 地域連続学習のための深部Rラーニング
- Authors: Rishi Shah, Yuqian Jiang, Justin Hart, Peter Stone
- Abstract要約: 非均一なカバレッジプランニングは、ロボット工学においてよく研究されている問題である。
本稿では,ロボットが事前に関連する事象の分布を把握していないような,一様でないカバレッジのバリエーションについて考察する。
半マルコフ決定過程における強化学習に基づく新しい手法を提案する。
- 参考スコア(独自算出の注目度): 41.832987254467284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Coverage path planning is a well-studied problem in robotics in which a robot
must plan a path that passes through every point in a given area repeatedly,
usually with a uniform frequency. To address the scenario in which some points
need to be visited more frequently than others, this problem has been extended
to non-uniform coverage planning. This paper considers the variant of
non-uniform coverage in which the robot does not know the distribution of
relevant events beforehand and must nevertheless learn to maximize the rate of
detecting events of interest. This continual area sweeping problem has been
previously formalized in a way that makes strong assumptions about the
environment, and to date only a greedy approach has been proposed. We
generalize the continual area sweeping formulation to include fewer
environmental constraints, and propose a novel approach based on reinforcement
learning in a Semi-Markov Decision Process. This approach is evaluated in an
abstract simulation and in a high fidelity Gazebo simulation. These evaluations
show significant improvement upon the existing approach in general settings,
which is especially relevant in the growing area of service robotics.
- Abstract(参考訳): カバレッジパス計画(英語: cover path planning)は、ロボットが特定の領域のすべての点を通過する経路を、通常一様周波数で繰り返し計画しなければならない、ロボット工学におけるよく研究された問題である。
いくつかのポイントをもっと頻繁に訪問する必要があるシナリオに対処するため、この問題は一様でないカバレッジ計画に拡張されている。
本稿では,ロボットが事前に関連事象の分布を把握せず,かつ,関心事象の検出率の最大化を学ばなければならない,一様でないカバレッジのバリエーションについて考察する。
この連続的な地域浄化問題は、環境に関する強い仮定を定式化しており、これまでは強欲なアプローチが提案されているのみである。
環境制約を少なく抑えるために, 連続的なエリアスイーピング定式化を一般化し, 半マルコフ決定過程における強化学習に基づく新しいアプローチを提案する。
このアプローチは抽象シミュレーションおよび高忠実度ガゼボシミュレーションで評価される。
これらの評価は、サービスロボティクスの成長分野に特に関係する、一般的な設定における既存のアプローチにおいて大きな改善を示している。
関連論文リスト
- C$^{2}$INet: Realizing Incremental Trajectory Prediction with Prior-Aware Continual Causal Intervention [10.189508227447401]
複雑なシナリオにおけるマルチエージェントの軌道予測は、自律運転のようなアプリケーションには不可欠である。
既存の手法は、しばしば環境バイアスを見落とし、一般化の低さにつながる。
一般化可能なマルチエージェント軌道予測のための連続因果干渉法(C$2$INet)を提案する。
論文 参考訳(メタデータ) (2024-11-19T08:01:20Z) - Generalizability of Graph Neural Networks for Decentralized Unlabeled Motion Planning [72.86540018081531]
ラベルなしの動作計画では、衝突回避を確保しながら、ロボットのセットを目標の場所に割り当てる。
この問題は、探査、監視、輸送などの応用において、マルチロボットシステムにとって不可欠なビルディングブロックを形成している。
この問題に対処するために、各ロボットは、その400ドルのアネレストロボットと$k$アネレストターゲットの位置のみを知っている分散環境で対処する。
論文 参考訳(メタデータ) (2024-09-29T23:57:25Z) - Consciousness-Inspired Spatio-Temporal Abstractions for Better Generalization in Reinforcement Learning [83.41487567765871]
Skipperはモデルベースの強化学習フレームワークである。
これは、与えられたタスクをより小さく、より管理しやすいサブタスクに自動的に一般化する。
環境の関連部分には、スパースな意思決定と集中した抽象化を可能にする。
論文 参考訳(メタデータ) (2023-09-30T02:25:18Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Autonomous search of real-life environments combining dynamical
system-based path planning and unsupervised learning [0.0]
本稿では,障害物回避,カオス軌道分散,および正確なカバレッジ計算のためのアルゴリズムを提案する。
アルゴリズムは概してスムーズなカオス軌道を生成し、環境をスキャンする。
このアプリケーションの性能は、従来の最適経路プランナーに匹敵するものだった。
論文 参考訳(メタデータ) (2023-05-03T00:09:31Z) - Risk-Sensitive and Robust Model-Based Reinforcement Learning and
Planning [2.627046865670577]
我々は、逐次意思決定における計画と強化学習のアプローチに対処する。
多くの実世界の領域において、完全に正確なモデルやシミュレータを構築することは不可能である。
私たちはモデルベースのアルゴリズムに焦点をあてて、この目標に対して多くのコントリビューションを行います。
論文 参考訳(メタデータ) (2023-04-02T16:44:14Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Evaluating Guiding Spaces for Motion Planning [2.384084215091134]
我々は、同じ枠組みの下で、見かけ上の異なる多くの先行研究をカプセル化するエンフモーション計画誘導空間を定義する。
また,得られたバイアスサンプリングの品質に焦点をあてた案内計画を評価するための情報理論手法を提案する。
論文 参考訳(メタデータ) (2022-10-16T21:17:51Z) - Incremental 3D Scene Completion for Safe and Efficient Exploration
Mapping and Planning [60.599223456298915]
本研究では,情報,安全,解釈可能な地図作成と計画に3次元シーン補完を活用することによって,深層学習を探索に統合する新しい手法を提案する。
本手法は,地図の精度を最小限に抑えることで,ベースラインに比べて環境のカバレッジを73%高速化できることを示す。
最終地図にシーン完了が含まれていなくても、ロボットがより情報的な経路を選択するように誘導し、ロボットのセンサーでシーンの測定を35%高速化できることが示される。
論文 参考訳(メタデータ) (2022-08-17T14:19:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。