論文の概要: Improving Generalization in Reinforcement Learning Training Regimes for
Social Robot Navigation
- arxiv url: http://arxiv.org/abs/2308.14947v2
- Date: Wed, 28 Feb 2024 21:59:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 18:38:41.659945
- Title: Improving Generalization in Reinforcement Learning Training Regimes for
Social Robot Navigation
- Title(参考訳): 社会ロボットナビゲーションのための強化学習指導規則の一般化
- Authors: Adam Sigal, Hsiu-Chin Lin, AJung Moon
- Abstract要約: カリキュラム学習を用いたRLソーシャルナビゲーション手法の一般化性能を向上させる手法を提案する。
本研究は,カリキュラム学習を学習に活用することで,従来の学習方法よりも優れた一般化性能が得られることを示す。
- 参考スコア(独自算出の注目度): 5.475804640008192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In order for autonomous mobile robots to navigate in human spaces, they must
abide by our social norms. Reinforcement learning (RL) has emerged as an
effective method to train sequential decision-making policies that are able to
respect these norms. However, a large portion of existing work in the field
conducts both RL training and testing in simplistic environments. This limits
the generalization potential of these models to unseen environments, and the
meaningfulness of their reported results. We propose a method to improve the
generalization performance of RL social navigation methods using curriculum
learning. By employing multiple environment types and by modeling pedestrians
using multiple dynamics models, we are able to progressively diversify and
escalate difficulty in training. Our results show that the use of curriculum
learning in training can be used to achieve better generalization performance
than previous training methods. We also show that results presented in many
existing state-of-the-art RL social navigation works do not evaluate their
methods outside of their training environments, and thus do not reflect their
policies' failure to adequately generalize to out-of-distribution scenarios. In
response, we validate our training approach on larger and more crowded testing
environments than those used in training, allowing for more meaningful
measurements of model performance.
- Abstract(参考訳): 自律的な移動ロボットが人間の空間を移動するためには、社会的規範に従わなければならない。
強化学習(rl)は、これらの規範を尊重できる逐次的意思決定ポリシーを訓練するための効果的な方法として登場した。
しかし、この分野における既存の研究の大部分は、簡素な環境でRLトレーニングとテストの両方を実施している。
これにより、これらのモデルの一般化ポテンシャルは見えない環境に制限され、報告された結果の有意義さが制限される。
カリキュラム学習を用いたRLソーシャルナビゲーション手法の一般化性能を向上させる手法を提案する。
複数の環境タイプを採用し、複数のダイナミクスモデルを用いて歩行者をモデル化することで、トレーニングの困難を段階的に多様化し、エスカレートすることができる。
本研究は,カリキュラム学習を学習に活用することで,従来の学習方法よりも優れた一般化性能が得られることを示す。
また,既存のRLソーシャルナビゲーションの成果は,学習環境外の手法を評価せず,かつ,その方針が,配布外シナリオに適切に一般化しなかったことを反映していないことも示す。
それに対して、トレーニングで使用されるものよりも大きくて混雑したテスト環境に対するトレーニングアプローチを検証することで、モデルパフォーマンスのより有意義な測定を可能にします。
関連論文リスト
- Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。
その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。
過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - Avoidance Navigation Based on Offline Pre-Training Reinforcement
Learning [0.0]
本稿では,移動ロボットの地図を使わずに回避ナビゲーションを行うための,事前学習型深部強化学習(DRL)を提案する。
早期の非効率なランダム探索を高速化するために,効率的なオフライン学習戦略を提案する。
DRLモデルは, 異なる環境下で普遍的な汎用能力を有することを示した。
論文 参考訳(メタデータ) (2023-08-03T06:19:46Z) - Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z) - Evolutionary Curriculum Training for DRL-Based Navigation Systems [5.8633910194112335]
本稿では,衝突回避問題に対処するための進化的カリキュラムトレーニングという新しい手法を提案する。
進化的カリキュラムトレーニングの第一の目的は、様々なシナリオにおいて衝突回避モデルの能力を評価し、そのスキルを不十分にするためにカリキュラムを作成することである。
我々は,この進化的学習環境がより高い成功率と平均衝突回数の低下につながるという仮説を検証するために,5つの構造化環境にまたがってモデルの性能をベンチマークした。
論文 参考訳(メタデータ) (2023-06-15T05:56:34Z) - Representation Learning for Continuous Action Spaces is Beneficial for
Efficient Policy Learning [64.14557731665577]
深部強化学習(DRL)は従来の強化学習(RL)のボトルネックを突破する
本稿では,潜在状態と行動空間における効率的なポリシー学習手法を提案する。
提案手法の有効性をMountainCar,CarRacing,Cheetah実験で実証した。
論文 参考訳(メタデータ) (2022-11-23T19:09:37Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Instance based Generalization in Reinforcement Learning [24.485597364200824]
部分観測可能なマルコフ決定過程(POMDP)の文脈における政策学習の分析
探索戦略とは独立に、再使用したインスタンスは、トレーニング中にエージェントが観察するマルコフダイナミクスに大きな変化をもたらすことを証明している。
我々は、データ収集に使用されるコンセンサスポリシーを計算し、インスタンス固有のエクスプロイトを許可しない、特別なポリシーのアンサンブルに対して共有信念表現を訓練することを提案する。
論文 参考訳(メタデータ) (2020-11-02T16:19:44Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。