論文の概要: Evolutionary Curriculum Training for DRL-Based Navigation Systems
- arxiv url: http://arxiv.org/abs/2306.08870v1
- Date: Thu, 15 Jun 2023 05:56:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 16:21:46.135976
- Title: Evolutionary Curriculum Training for DRL-Based Navigation Systems
- Title(参考訳): DRLに基づくナビゲーションシステムのための進化的カリキュラムトレーニング
- Authors: Max Asselmeier, Zhaoyi Li, Kelin Yu, Danfei Xu
- Abstract要約: 本稿では,衝突回避問題に対処するための進化的カリキュラムトレーニングという新しい手法を提案する。
進化的カリキュラムトレーニングの第一の目的は、様々なシナリオにおいて衝突回避モデルの能力を評価し、そのスキルを不十分にするためにカリキュラムを作成することである。
我々は,この進化的学習環境がより高い成功率と平均衝突回数の低下につながるという仮説を検証するために,5つの構造化環境にまたがってモデルの性能をベンチマークした。
- 参考スコア(独自算出の注目度): 5.8633910194112335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, Deep Reinforcement Learning (DRL) has emerged as a promising
method for robot collision avoidance. However, such DRL models often come with
limitations, such as adapting effectively to structured environments containing
various pedestrians. In order to solve this difficulty, previous research has
attempted a few approaches, including training an end-to-end solution by
integrating a waypoint planner with DRL and developing a multimodal solution to
mitigate the drawbacks of the DRL model. However, these approaches have
encountered several issues, including slow training times, scalability
challenges, and poor coordination among different models. To address these
challenges, this paper introduces a novel approach called evolutionary
curriculum training to tackle these challenges. The primary goal of
evolutionary curriculum training is to evaluate the collision avoidance model's
competency in various scenarios and create curricula to enhance its
insufficient skills. The paper introduces an innovative evaluation technique to
assess the DRL model's performance in navigating structured maps and avoiding
dynamic obstacles. Additionally, an evolutionary training environment generates
all the curriculum to improve the DRL model's inadequate skills tested in the
previous evaluation. We benchmark the performance of our model across five
structured environments to validate the hypothesis that this evolutionary
training environment leads to a higher success rate and a lower average number
of collisions. Further details and results at our project website.
- Abstract(参考訳): 近年,ロボット衝突回避のための有望な手法として,深層強化学習(DRL)が登場している。
しかし、そのようなDRLモデルは、様々な歩行者を含む構造された環境に効果的に適応するなど、しばしば制限が伴う。
この問題を解決するために、従来の研究では、DRLにウェイポイントプランナーを統合することによってエンドツーエンドソリューションのトレーニングや、DRLモデルの欠点を軽減するマルチモーダルソリューションの開発など、いくつかのアプローチが試みられている。
しかしながら、これらのアプローチは、遅いトレーニング時間、スケーラビリティの課題、異なるモデル間の調整不良など、いくつかの問題に直面している。
本稿では,これらの課題に取り組むために,進化的カリキュラムトレーニングと呼ばれる新しいアプローチを提案する。
進化的カリキュラムトレーニングの主な目標は、様々なシナリオにおける衝突回避モデルの能力を評価し、その不十分なスキルを向上させるためのカリキュラムを作成することである。
本稿では,構造化地図のナビゲートと動的障害回避におけるdrlモデルの性能評価手法を提案する。
さらに、進化的学習環境は、以前の評価で検証されたDRLモデルの不十分なスキルを改善するために、すべてのカリキュラムを生成する。
我々は,この進化的学習環境がより高い成功率と低い平均衝突数をもたらすという仮説を検証するために,5つの構造化環境におけるモデルの性能をベンチマークする。
さらなる詳細と成果は、プロジェクトのwebサイトにある。
関連論文リスト
- Reusing Embeddings: Reproducible Reward Model Research in Large Language Model Alignment without GPUs [58.18140409409302]
大規模言語モデル (LLM) は強化学習 (RL) を通じて構造化タスクに大きく進歩した。
チャットボットやコンテンツ生成といった幅広い分野にRLを適用することは、ユニークな課題だ。
埋め込み型報酬モデルを用いた既存の報酬モデルアンサンブル研究の再現事例について述べる。
論文 参考訳(メタデータ) (2025-02-04T19:37:35Z) - Sustainable Self-evolution Adversarial Training [51.25767996364584]
対戦型防衛モデルのための持続的自己進化支援訓練(SSEAT)フレームワークを提案する。
本研究は,様々な種類の対角的事例から学習を実現するために,連続的な対向防衛パイプラインを導入する。
また,より多様で重要な再学習データを選択するために,逆データ再生モジュールを提案する。
論文 参考訳(メタデータ) (2024-12-03T08:41:11Z) - Behavior Backdoor for Deep Learning Models [95.50787731231063]
我々は,行動訓練されたバックドアモデルトレーニング手順として定義された行動バックドアアタックに向けた第一歩を踏み出す。
本稿では,行動バックドアを実装する最初のパイプライン,すなわち量子バックドア(QB)攻撃を提案する。
さまざまなモデル、データセット、タスクで実験が行われ、この新たなバックドア攻撃の有効性が実証された。
論文 参考訳(メタデータ) (2024-12-02T10:54:02Z) - Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - PASTA: Pretrained Action-State Transformer Agents [10.654719072766495]
自己教師型学習は、様々なコンピューティング領域において革命的なパラダイムシフトをもたらした。
最近のアプローチでは、大量のラベルのないデータに基づいて、トランスフォーマーモデルを事前訓練する。
強化学習において、研究者は最近これらのアプローチに適応し、専門家の軌道で事前訓練されたモデルを開発した。
論文 参考訳(メタデータ) (2023-07-20T15:09:06Z) - Deploying Offline Reinforcement Learning with Human Feedback [34.11507483049087]
強化学習は、現実世界のアプリケーションで意思決定タスクを約束している。
1つの実践的なフレームワークは、オフラインデータセットからパラメータ化されたポリシーモデルをトレーニングし、それらをオンライン環境にデプロイすることである。
このアプローチは、オフライントレーニングが完璧でない可能性があるため、危険なアクションを取る可能性のあるRLモデルのパフォーマンスが低下する可能性があるため、リスクが伴う可能性がある。
我々は、人間がRLモデルを監督し、オンラインデプロイメントフェーズで追加のフィードバックを提供する代替フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-13T12:13:16Z) - On the Feasibility of Cross-Task Transfer with Model-Based Reinforcement
Learning [45.73223325256312]
最新のモデルベースRLアルゴリズムで学習した内部モデルが、新しい明らかに異なるタスクを高速に解くために活用できるかどうかを考察する。
我々は,学習世界のモデルのスケーラブルな事前学習と微調整が可能な,サンプル効率の高いオンラインRLのためのフレームワークであるModel-Based Cross-Task Transfer (XTRA)を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:57:06Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。
主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。
理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T06:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。