Fugu-MT 論文翻訳(概要): Improving Reinforcement Learning Training Regimes for Social Robot Navigation

論文の概要: Improving Reinforcement Learning Training Regimes for Social Robot Navigation

arxiv url: http://arxiv.org/abs/2308.14947v1
Date: Tue, 29 Aug 2023 00:00:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-30 16:20:27.541007
Title: Improving Reinforcement Learning Training Regimes for Social Robot Navigation
Title（参考訳）: ソーシャルロボットナビゲーションのための強化学習トレーニングレジームの改善
Authors: Adam Sigal, Hsiu-Chin Lin, AJung Moon
Abstract要約: カリキュラム学習を用いたRLソーシャルナビゲーション手法の一般化性能を向上させる手法を提案する。本研究は,カリキュラム学習を学習に活用することで,従来の学習方法よりも優れた一般化性能が得られることを示す。
参考スコア（独自算出の注目度）: 5.475804640008192
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In order for autonomous mobile robots to navigate in human spaces, they must abide by our social norms. Reinforcement learning (RL) has emerged as an effective method to train robot navigation policies that are able to respect these norms. However, a large portion of existing work in the field conducts both RL training and testing in simplistic environments. This limits the generalization potential of these models to unseen environments, and the meaningfulness of their reported results. We propose a method to improve the generalization performance of RL social navigation methods using curriculum learning. By employing multiple environment types and by modeling pedestrians using multiple dynamics models, we are able to progressively diversify and escalate difficulty in training. Our results show that the use of curriculum learning in training can be used to achieve better generalization performance than previous training methods. We also show that results presented in many existing state-of-the art RL social navigation works do not evaluate their methods outside of their training environments, and thus do not reflect their policies' failure to adequately generalize to out-of-distribution scenarios. In response, we validate our training approach on larger and more crowded testing environments than those used in training, allowing for more meaningful measurements of model performance.
Abstract（参考訳）: 自律的な移動ロボットが人間の空間を移動するためには、社会的規範に従わなければならない。強化学習(rl)は、これらの規範を尊重できるロボットナビゲーションポリシーを訓練するための効果的な方法として登場した。しかし、この分野における既存の研究の大部分は、簡素な環境でRLトレーニングとテストの両方を実施している。これにより、これらのモデルの一般化ポテンシャルは見えない環境に制限され、報告された結果の有意義さが制限される。カリキュラム学習を用いたRLソーシャルナビゲーション手法の一般化性能を向上させる手法を提案する。複数の環境タイプを採用し、複数のダイナミクスモデルを用いて歩行者をモデル化することで、トレーニングの困難を段階的に多様化し、エスカレートすることができる。本研究は,カリキュラム学習を学習に活用することで,従来の学習方法よりも優れた一般化性能が得られることを示す。また, 既存のRLソーシャルナビゲーションの成果は, トレーニング環境外の手法を評価せず, アウト・オブ・ディストリビューションシナリオに適切に一般化する政策の失敗を反映していないことも示している。それに対して、トレーニングで使用されるものよりも大きくて混雑したテスト環境に対するトレーニングアプローチを検証することで、モデルパフォーマンスのより有意義な測定を可能にします。

関連論文リスト

From Seeing to Experiencing: Scaling Navigation Foundation Models with Reinforcement Learning [59.88543114325153]
本稿では,航法基礎モデルの強化学習能力を高めるためのSeeing-to-Experiencingフレームワークを提案する。 S2Eは、ビデオの事前トレーニングとRLによるポストトレーニングの長所を組み合わせたものだ。実世界のシーンを3DGSで再現した3D画像に基づく総合的なエンドツーエンド評価ベンチマークであるNavBench-GSを構築した。
論文参考訳（メタデータ） (2025-07-29T17:26:10Z)
Reinforcement Learning for Machine Learning Model Deployment: Evaluating Multi-Armed Bandits in ML Ops Environments [0.0]
本稿では,強化学習(RL)に基づくモデル管理が,展開決定をより効果的に管理できるかどうかを検討する。当社のアプローチは、デプロイされたモデルを継続的に評価し、パフォーマンスの低いモデルをリアルタイムでロールバックすることで、より適応的な運用環境を実現する。この結果から,RLベースのモデル管理は,自動化を向上し,手作業による介入への依存を軽減し,デプロイ後のモデル障害に伴うリスクを軽減することが示唆された。
論文参考訳（メタデータ） (2025-03-28T16:42:21Z)
RLDG: Robotic Generalist Policy Distillation via Reinforcement Learning [53.8293458872774]
本稿では,RLDG(Reinforcement Learning Distilled Generalists)を提案する。我々は、RL生成データで訓練されたジェネラリストポリシーが、人間の実演で訓練された者より一貫して優れていたことを実証する。以上の結果から,タスク固有RLと一般政策蒸留を組み合わせることで,より有能で効率的なロボット操作システムの開発が期待できる可能性が示唆された。
論文参考訳（メタデータ） (2024-12-13T04:57:55Z)
Importance Sampling-Guided Meta-Training for Intelligent Agents in Highly Interactive Environments [43.144056801987595]
本研究では,ガイド付きメタRLと重要サンプリング(IS)を統合し,トレーニング分布を最適化する新たなトレーニングフレームワークを提案する。現実世界のデータセットから自然な分布を推定することにより、このフレームワークは、共通および極端な駆動シナリオ間のバランスのとれたフォーカスを保証する。
論文参考訳（メタデータ） (2024-07-22T17:57:12Z)
Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文参考訳（メタデータ） (2024-06-13T14:41:00Z)
Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文参考訳（メタデータ） (2024-05-30T23:20:23Z)
Avoidance Navigation Based on Offline Pre-Training Reinforcement Learning [0.0]
本稿では,移動ロボットの地図を使わずに回避ナビゲーションを行うための,事前学習型深部強化学習(DRL)を提案する。早期の非効率なランダム探索を高速化するために,効率的なオフライン学習戦略を提案する。 DRLモデルは, 異なる環境下で普遍的な汎用能力を有することを示した。
論文参考訳（メタデータ） (2023-08-03T06:19:46Z)
Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文参考訳（メタデータ） (2023-06-27T17:58:39Z)
Representation Learning for Continuous Action Spaces is Beneficial for Efficient Policy Learning [64.14557731665577]
深部強化学習(DRL)は従来の強化学習(RL)のボトルネックを突破する本稿では,潜在状態と行動空間における効率的なポリシー学習手法を提案する。提案手法の有効性をMountainCar,CarRacing,Cheetah実験で実証した。
論文参考訳（メタデータ） (2022-11-23T19:09:37Z)
Training and Evaluation of Deep Policies using Reinforcement Learning and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。強化学習と潜在変数生成モデルの組み合わせを利用する。最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文参考訳（メタデータ） (2022-04-18T22:02:32Z)
Instance based Generalization in Reinforcement Learning [24.485597364200824]
部分観測可能なマルコフ決定過程(POMDP)の文脈における政策学習の分析探索戦略とは独立に、再使用したインスタンスは、トレーニング中にエージェントが観察するマルコフダイナミクスに大きな変化をもたらすことを証明している。我々は、データ収集に使用されるコンセンサスポリシーを計算し、インスタンス固有のエクスプロイトを許可しない、特別なポリシーのアンサンブルに対して共有信念表現を訓練することを提案する。
論文参考訳（メタデータ） (2020-11-02T16:19:44Z)
Dynamics Generalization via Information Bottleneck in Deep Reinforcement Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文参考訳（メタデータ） (2020-08-03T02:24:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。