論文の概要: Reactive Multi-Robot Navigation in Outdoor Environments Through Uncertainty-Aware Active Learning of Human Preference Landscape
- arxiv url: http://arxiv.org/abs/2409.16577v1
- Date: Wed, 25 Sep 2024 03:15:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 05:55:22.563455
- Title: Reactive Multi-Robot Navigation in Outdoor Environments Through Uncertainty-Aware Active Learning of Human Preference Landscape
- Title(参考訳): 不確実性を考慮した人間の選好景観の能動的学習による屋外環境における反応型マルチロボットナビゲーション
- Authors: Chao Huang, Wenshuo Zang, Carlo Pinciroli, Zhi Jane Li, Taposh Banerjee, Lili Su, Rui Liu,
- Abstract要約: マルチロボットシステム(MRS)は、多様な能力を持つ複数のメンバーが存在するため、ミッションをより効率的に実行することができる。
広範囲の現実世界環境にMSSを配置することは、不確実で様々な障害のために依然として困難である。
本研究では, ランドスケープ・ラーニング・アンド・ビヘイビア・アライメント・フレームワーク(PLBA)を新たに設計した。
- 参考スコア(独自算出の注目度): 13.240299261043806
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Compared with single robots, Multi-Robot Systems (MRS) can perform missions more efficiently due to the presence of multiple members with diverse capabilities. However, deploying an MRS in wide real-world environments is still challenging due to uncertain and various obstacles (e.g., building clusters and trees). With a limited understanding of environmental uncertainty on performance, an MRS cannot flexibly adjust its behaviors (e.g., teaming, load sharing, trajectory planning) to ensure both environment adaptation and task accomplishments. In this work, a novel joint preference landscape learning and behavior adjusting framework (PLBA) is designed. PLBA efficiently integrates real-time human guidance to MRS coordination and utilizes Sparse Variational Gaussian Processes with Varying Output Noise to quickly assess human preferences by leveraging spatial correlations between environment characteristics. An optimization-based behavior-adjusting method then safely adapts MRS behaviors to environments. To validate PLBA's effectiveness in MRS behavior adaption, a flood disaster search and rescue task was designed. 20 human users provided 1764 feedback based on human preferences obtained from MRS behaviors related to "task quality", "task progress", "robot safety". The prediction accuracy and adaptation speed results show the effectiveness of PLBA in preference learning and MRS behavior adaption.
- Abstract(参考訳): シングルロボットと比較して、マルチロボットシステム(MRS)は多様な能力を持つ複数のメンバーが存在するため、ミッションをより効率的に実行することができる。
しかし、広範囲の現実世界環境にMSSを配置することは、不確実で様々な障害(例えば、クラスタや木を構築するなど)のために依然として困難である。
性能上の環境不確実性について限定的な理解があるため、MSSは環境適応とタスク達成の両立を保証するために、その行動(例えば、チーム化、負荷共有、軌道計画)を柔軟に調整することはできない。
本研究では, ランドスケープ・ラーニング・アンド・ビヘイビア・アライメント・フレームワーク(PLBA)を新たに設計した。
PLBAは, 環境特性の空間的相関を利用して, MRS調整のためのリアルタイムな人的指導を効率よく統合し, スパース変分ガウス過程とVarying Output Noiseを用いて人的嗜好を迅速に評価する。
最適化に基づく行動調整手法は、MSSの挙動を環境に安全に適応させる。
MRSの挙動適応におけるPLBAの有効性を検証するため,洪水災害探索・救助作業が設計された。
20人の人間が「タスク品質」「タスク進捗」「ロボットの安全性」に関連するMSSの行動から得られる人間の嗜好に基づいて1764のフィードバックを提供した。
予測精度と適応速度は、優先学習およびMSS行動適応におけるPLBAの有効性を示す。
関連論文リスト
- Task-Aware Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [70.96345405979179]
オフラインマルチタスク強化学習(MTRL)の目的は、オンライン環境相互作用を必要とせず、多様なタスクに適用可能な統一されたポリシーを開発することである。
タスクの内容と複雑さの変化は、政策の定式化において重大な課題を引き起こします。
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
論文 参考訳(メタデータ) (2024-11-02T05:49:14Z) - Interpretable Responsibility Sharing as a Heuristic for Task and Motion Planning [5.331052581441265]
解釈可能な責任共有(IRS)は、人間構築環境と固有のバイアスを活用することにより、家庭内ロボットの計画効率を高める。
このアプローチは、補助オブジェクトがタスクの責任を実施エージェントと共有する新しい概念である責任共有(Responsibility Sharing, RS)に根ざしている。
IRSは、タスク実行に必要な労力を削減し、全体的な意思決定プロセスを強化することで、従来の方法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-09-09T13:15:53Z) - HarmoDT: Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [72.25707314772254]
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
このフレームワークの上位レベルは、調和部分空間を規定するタスク固有のマスクの学習に特化しており、内部レベルは、統一されたポリシーの全体的なパフォーマンスを高めるためにパラメータの更新に重点を置いている。
論文 参考訳(メタデータ) (2024-05-28T11:41:41Z) - Robust Deep Reinforcement Learning with Adaptive Adversarial Perturbations in Action Space [3.639580365066386]
本稿では,トレーニング中の対向摂動の影響を調整するための適応的対向係数フレームワークを提案する。
提案手法の特長は,実世界のアプリケーションに簡単にデプロイでき,シミュレータに事前にアクセスする必要がなくなることである。
MuJoCoの実験から,本手法はトレーニングの安定性を向上し,異なるテスト環境に移行する際の堅牢なポリシを学習できることが示された。
論文 参考訳(メタデータ) (2024-05-20T12:31:11Z) - Task and Domain Adaptive Reinforcement Learning for Robot Control [0.34137115855910755]
課題や環境条件に応じて動的にポリシーを適応する新しい適応エージェントを提案する。
このエージェントはIsaacGym上に作られたカスタムで高度に並列化されたシミュレータを使って訓練されている。
実世界において、さまざまな課題を解くために、飛行飛行のためにゼロショット転送を行う。
論文 参考訳(メタデータ) (2024-04-29T14:02:02Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。
既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。
本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文 参考訳(メタデータ) (2022-04-07T14:07:51Z) - Error-Aware Policy Learning: Zero-Shot Generalization in Partially
Observable Dynamic Environments [18.8481771211768]
新しい環境に適応できる政策を開発することで、このようなシム・トゥ・リアル問題に取り組むための新しいアプローチを紹介します。
私たちのアプローチの鍵は、トレーニング中に観察できない要因の影響を明示的に認識するエラー認識ポリシー(EAP)です。
ヒップトルク補助装置の訓練されたEAPは, 生体力学的特性の異なる異なる人体エージェントに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-03-13T15:36:44Z) - Learning Compliance Adaptation in Contact-Rich Manipulation [81.40695846555955]
本稿では,コンタクトリッチタスクに必要な力プロファイルの予測モデルを学習するための新しいアプローチを提案する。
このアプローチは、双方向Gated Recurrent Units (Bi-GRU) に基づく異常検出と適応力/インピーダンス制御を組み合わせたものである。
論文 参考訳(メタデータ) (2020-05-01T05:23:34Z) - Counter-example Guided Learning of Bounds on Environment Behavior [11.357397596759172]
本稿では, 環境の正確なモデルなしで, 仕様適合性を評価可能なデータ駆動型ソリューションを提案する。
私たちのアプローチでは、データとシステムの望ましい振る舞いの仕様を使用して、環境の振る舞いの保守的な反応性境界を学習する。
論文 参考訳(メタデータ) (2020-01-20T19:58:24Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。