論文の概要: Curriculum Learning for Safe Mapless Navigation
- arxiv url: http://arxiv.org/abs/2112.12490v1
- Date: Thu, 23 Dec 2021 12:30:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-24 14:58:45.056869
- Title: Curriculum Learning for Safe Mapless Navigation
- Title(参考訳): 安全なマップレスナビゲーションのためのカリキュラム学習
- Authors: Luca Marzari, Davide Corsi, Enrico Marchesini and Alessandro Farinelli
- Abstract要約: 本研究は,カリキュラム学習(CL)に基づくアプローチがエージェントのパフォーマンスに与える影響について検討する。
特に、ロボットマップレスナビゲーションの安全性に焦点をあて、標準的なエンドツーエンド(E2E)トレーニング戦略と比較する。
- 参考スコア(独自算出の注目度): 71.55718344087657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work investigates the effects of Curriculum Learning (CL)-based
approaches on the agent's performance. In particular, we focus on the safety
aspect of robotic mapless navigation, comparing over a standard end-to-end
(E2E) training strategy. To this end, we present a CL approach that leverages
Transfer of Learning (ToL) and fine-tuning in a Unity-based simulation with the
Robotnik Kairos as a robotic agent. For a fair comparison, our evaluation
considers an equal computational demand for every learning approach (i.e., the
same number of interactions and difficulty of the environments) and confirms
that our CL-based method that uses ToL outperforms the E2E methodology. In
particular, we improve the average success rate and the safety of the trained
policy, resulting in 10% fewer collisions in unseen testing scenarios. To
further confirm these results, we employ a formal verification tool to quantify
the number of correct behaviors of Reinforcement Learning policies over desired
specifications.
- Abstract(参考訳): 本研究は,カリキュラム学習(CL)に基づくアプローチがエージェントのパフォーマンスに与える影響について検討する。
特に,ロボットマップレスナビゲーションの安全性に着目し,標準的なエンドツーエンド(e2e)トレーニング戦略を比較した。
この目的のために,ロボットエージェントとしてRobotnik Kairosを用いたUnityベースのシミュレーションにおいて,Transfer of Learning(ToL)とファインチューニングを活用するCLアプローチを提案する。
公平な比較のために,本評価では,各学習手法(例えば,同一数の相互作用と環境の難易度)に対して同等な計算需要を考慮し,ToLを用いたCL法がE2E法より優れていることを確認した。
特に、トレーニングされたポリシーの平均成功率と安全性を改善し、見当たらないテストシナリオでの衝突が10%少なくなりました。
これらの結果をさらに確認するため,要求仕様に対する強化学習ポリシーの正しい行動の数を定量化するために,形式的検証ツールを用いる。
関連論文リスト
- Investigating the Pre-Training Dynamics of In-Context Learning: Task Recognition vs. Task Learning [99.05401042153214]
In-context Learning(ICL)は、タスク認識(TR)とタスク学習(TL)の2つの主要な能力に起因する可能性がある。
ICLの出現の事前学習のダイナミクスを調べることで、第一歩を踏み出す。
そこで本研究では,この2つの機能を推論時によりよく統合するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-06-20T06:37:47Z) - A Comprehensive Study of Privacy Risks in Curriculum Learning [25.57099711643689]
有意義な順序でデータで機械学習モデルをトレーニングすることは、トレーニングプロセスの加速に有効であることが証明されている。
重要な実現技術はカリキュラム学習(CL)であり、大きな成功を収め、画像やテキストの分類などの分野に展開されてきた。
しかし、CLが機械学習のプライバシーにどのように影響するかは不明だ。
論文 参考訳(メタデータ) (2023-10-16T07:06:38Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - CCE: Sample Efficient Sparse Reward Policy Learning for Robotic Navigation via Confidence-Controlled Exploration [72.24964965882783]
CCE (Confidence-Controlled Exploration) は、ロボットナビゲーションのようなスパース報酬設定のための強化学習アルゴリズムのトレーニングサンプル効率を高めるために設計された。
CCEは、勾配推定と政策エントロピーの間の新しい関係に基づいている。
我々は、CCEが一定軌跡長とエントロピー正規化を用いる従来の手法より優れるシミュレーションおよび実世界の実験を通して実証する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - Some Supervision Required: Incorporating Oracle Policies in
Reinforcement Learning via Epistemic Uncertainty Metrics [2.56865487804497]
批判的信頼誘導探索(Critical Confidence Guided Exploration)は、政策の行動を提案として受け取り、この情報を学習スキームに組み込む。
CCGEは, 託宣方針を利用する隣接アルゴリズムに対して, 競合的に動作可能であることを示す。
論文 参考訳(メタデータ) (2022-08-22T18:26:43Z) - Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation [78.17108227614928]
本研究では,水文ナビゲーションに着目した安全強化学習のためのベンチマーク環境を提案する。
価値に基づく政策段階の深層強化学習(DRL)について考察する。
また,学習したモデルの振る舞いを所望の特性の集合上で検証する検証戦略を提案する。
論文 参考訳(メタデータ) (2021-12-16T16:53:56Z) - Evaluating the Safety of Deep Reinforcement Learning Models using
Semi-Formal Verification [81.32981236437395]
本稿では,区間分析に基づく半形式的意思決定手法を提案する。
本手法は, 標準ベンチマークに比較して, 形式検証に対して比較結果を得る。
提案手法は, 意思決定モデルにおける安全性特性を効果的に評価することを可能にする。
論文 参考訳(メタデータ) (2020-10-19T11:18:06Z) - Incremental Learning for End-to-End Automatic Speech Recognition [41.297106772785206]
エンドツーエンド自動音声認識(ASR)のための漸進的学習法を提案する。
本稿では, ASRモデルに対する新しい説明可能性に基づく知識蒸留を設計し, 応答に基づく知識蒸留と組み合わせて, 元のモデルの予測と予測の「理性」を維持する。
多段階連続訓練タスクの結果,提案手法は忘れを緩和する上で,既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-05-11T08:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。