論文の概要: Verifying Learning-Based Robotic Navigation Systems
- arxiv url: http://arxiv.org/abs/2205.13536v1
- Date: Thu, 26 May 2022 17:56:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 15:44:12.332001
- Title: Verifying Learning-Based Robotic Navigation Systems
- Title(参考訳): 学習に基づくロボットナビゲーションシステムの検証
- Authors: Guy Amir, Davide Corsi, Raz Yerushalmi, Luca Marzari, David Harel,
Alessandro Farinelli and Guy Katz
- Abstract要約: 有効モデル選択に現代検証エンジンをどのように利用できるかを示す。
具体的には、検証を使用して、最適下行動を示す可能性のあるポリシーを検出し、除外する。
我々の研究は、現実世界のロボットにおける準最適DRLポリシーを認識するための検証バックエンドの使用を初めて実証したものである。
- 参考スコア(独自算出の注目度): 61.01217374879221
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (DRL) has become a dominant deep-learning
paradigm for various tasks in which complex policies are learned within
reactive systems. In parallel, there has recently been significant research on
verifying deep neural networks. However, to date, there has been little work
demonstrating the use of modern verification tools on real, DRL-controlled
systems.
In this case-study paper, we attempt to begin bridging this gap, and focus on
the important task of mapless robotic navigation -- a classic robotics problem,
in which a robot, usually controlled by a DRL agent, needs to efficiently and
safely navigate through an unknown arena towards a desired target. We
demonstrate how modern verification engines can be used for effective model
selection, i.e., the process of selecting the best available policy for the
robot in question from a pool of candidate policies. Specifically, we use
verification to detect and rule out policies that may demonstrate suboptimal
behavior, such as collisions and infinite loops. We also apply verification to
identify models with overly conservative behavior, thus allowing users to
choose superior policies that are better at finding an optimal, shorter path to
a target.
To validate our work, we conducted extensive experiments on an actual robot,
and confirmed that the suboptimal policies detected by our method were indeed
flawed. We also compared our verification-driven approach to state-of-the-art
gradient attacks, and our results demonstrate that gradient-based methods are
inadequate in this setting.
Our work is the first to demonstrate the use of DNN verification backends for
recognizing suboptimal DRL policies in real-world robots, and for filtering out
unwanted policies. We believe that the methods presented in this work can be
applied to a large range of application domains that incorporate
deep-learning-based agents.
- Abstract(参考訳): 深層強化学習(DRL)は、リアクティブシステム内で複雑なポリシーが学習される様々なタスクにおいて、主要なディープラーニングパラダイムとなっている。
並行して、ディープニューラルネットワークの検証に関する重要な研究が最近行われている。
しかし、現在ではDRL制御システムにおける最新の検証ツールの使用を示す研究はほとんど行われていない。
このケーススタディな論文では、このギャップを埋め始め、地図のないロボットナビゲーションの重要なタスクに焦点をあてる。従来のロボット工学の問題では、通常DRLエージェントによって制御されるロボットが、未知のアリーナから望ましい目標に向かって効率的に安全にナビゲートする必要がある。
提案手法は, ロボットが有効なモデル選択, すなわち, 候補ポリシーのプールから最適なポリシーを選択するプロセスにおいて, 最新の検証エンジンをどのように利用できるかを示すものである。
具体的には、衝突や無限ループなどの準最適挙動を示すポリシの検出と排除に検証を使用する。
また,過度に保守的な振る舞いを持つモデルを特定するために検証を適用することで,ターゲットへの最適で短いパスを見つけるのに優れたポリシを選択することができる。
本研究は,実際のロボットに対して広範な実験を行い,本手法が検出した最適下方策が実際に欠陥があることを確認した。
また,我々の検証駆動アプローチを最先端の勾配攻撃と比較し,勾配に基づく手法が不適切であることを実証した。
我々の研究は、現実世界のロボットにおける最適DRLポリシーを認識し、望ましくないポリシーをフィルタリングするために、DNN検証バックエンドを使用した最初の例である。
この研究で示された手法は、ディープラーニングベースのエージェントを組み込んだ広範囲のアプリケーションドメインに適用できると考えています。
関連論文リスト
- SoNIC: Safe Social Navigation with Adaptive Conformal Inference and Constrained Reinforcement Learning [26.554847852013737]
SoNICは適応型共形推論と制約付き強化学習を統合する最初のアルゴリズムである。
本手法は,従来の最先端RL法よりも11.67%高い96.93%の成功率を達成する。
実験により,疎密な群集と密集した群集の両方と相互作用して,堅牢で社会的に礼儀正しく意思決定できることを示した。
論文 参考訳(メタデータ) (2024-07-24T17:57:21Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。
この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。
実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文 参考訳(メタデータ) (2023-10-11T21:07:14Z) - Constrained Reinforcement Learning for Robotics via Scenario-Based
Programming [64.07167316957533]
DRLをベースとしたエージェントの性能を最適化し,その動作を保証することが重要である。
本稿では,ドメイン知識を制約付きDRLトレーニングループに組み込む新しい手法を提案する。
我々の実験は、専門家の知識を活用するために我々のアプローチを用いることで、エージェントの安全性と性能が劇的に向上することを示した。
論文 参考訳(メタデータ) (2022-06-20T07:19:38Z) - Robot Learning of Mobile Manipulation with Reachability Behavior Priors [38.49783454634775]
モバイルマニピュレーション(MM)システムは、非構造化現実環境におけるパーソナルアシスタントの役割を引き継ぐ上で理想的な候補である。
その他の課題として、MMは移動性と操作性の両方を必要とするタスクを実行するために、ロボットの実施形態を効果的に調整する必要がある。
本研究では,アクタ批判的RL手法におけるロボットの到達可能性の先行性の統合について検討した。
論文 参考訳(メタデータ) (2022-03-08T12:44:42Z) - Direct Random Search for Fine Tuning of Deep Reinforcement Learning
Policies [5.543220407902113]
直接ランダム検索は、決定論的ロールアウトを用いて直接最適化することにより、DRLポリシーを微調整するのに非常に効果的であることを示す。
その結果, 本手法は, テストした環境において, より一貫性があり, 高性能なエージェントが得られることがわかった。
論文 参考訳(メタデータ) (2021-09-12T20:12:46Z) - Learning Off-Policy with Online Planning [18.63424441772675]
本研究では,学習モデルと端末値関数を用いたHステップルックアヘッドの新たなインスタンス化について検討する。
ナビゲーション環境の集合に配置する際の安全性制約を組み込むLOOPの柔軟性を示す。
論文 参考訳(メタデータ) (2020-08-23T16:18:44Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。