論文の概要: SELFI: Autonomous Self-Improvement with Reinforcement Learning for Social Navigation
- arxiv url: http://arxiv.org/abs/2403.00991v2
- Date: Sat, 05 Oct 2024 00:12:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:40:27.837703
- Title: SELFI: Autonomous Self-Improvement with Reinforcement Learning for Social Navigation
- Title(参考訳): SELFI:ソーシャルナビゲーションのための強化学習による自律的自己改善
- Authors: Noriaki Hirose, Dhruv Shah, Kyle Stachowicz, Ajay Sridhar, Sergey Levine,
- Abstract要約: 体験と対話し、改善する自己改善ロボットは、ロボットシステムの現実的な展開の鍵となる。
本研究では,オンラインロボット体験を活用したオンライン学習手法であるSELFIを提案する。
本研究では, 衝突回避の観点からの改善と, より社会的に順応する行動について報告する。
- 参考スコア(独自算出の注目度): 54.97931304488993
- License:
- Abstract: Autonomous self-improving robots that interact and improve with experience are key to the real-world deployment of robotic systems. In this paper, we propose an online learning method, SELFI, that leverages online robot experience to rapidly fine-tune pre-trained control policies efficiently. SELFI applies online model-free reinforcement learning on top of offline model-based learning to bring out the best parts of both learning paradigms. Specifically, SELFI stabilizes the online learning process by incorporating the same model-based learning objective from offline pre-training into the Q-values learned with online model-free reinforcement learning. We evaluate SELFI in multiple real-world environments and report improvements in terms of collision avoidance, as well as more socially compliant behavior, measured by a human user study. SELFI enables us to quickly learn useful robotic behaviors with less human interventions such as pre-emptive behavior for the pedestrians, collision avoidance for small and transparent objects, and avoiding travel on uneven floor surfaces. We provide supplementary videos to demonstrate the performance of our fine-tuned policy on our project page.
- Abstract(参考訳): 体験と対話し、改善する自律的な自己改善ロボットは、ロボットシステムの現実的な展開の鍵となる。
本稿では,オンラインロボット体験を利用したオンライン学習手法であるSELFIを提案する。
SELFIは、オフラインモデルベースの学習の上にオンラインモデルフリー強化学習を適用して、両方の学習パラダイムの最高の部分を取り出す。
具体的には、SELFIは、オンラインモデルフリー強化学習で学んだQ値に、同じモデルベース学習目標をオフラインで事前学習することから、オンライン学習プロセスを安定化させる。
我々は,SELFIを複数の実環境において評価し,衝突回避の観点から,より社会的に適合した行動について報告する。
SELFIにより、歩行者のプリエンプティブ行動、小型で透明な物体の衝突回避、不均一な床面への移動回避など、人間の介入が少なくて便利なロボット動作を素早く学習することができる。
プロジェクトページ上で、細調整されたポリシーのパフォーマンスを示すための補足ビデオを提供する。
関連論文リスト
- Research on Autonomous Robots Navigation based on Reinforcement Learning [13.559881645869632]
我々は、経路計画と意思決定プロセスを最適化するために、Deep Q Network (DQN) と Proximal Policy Optimization (PPO) モデルを使用します。
様々な複雑なシナリオにおいて,これらのモデルの有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2024-07-02T00:44:06Z) - Autonomous Robotic Reinforcement Learning with Asynchronous Human
Feedback [27.223725464754853]
GEARは、ロボットを現実世界の環境に配置し、中断することなく自律的に訓練することを可能にする。
システムはリモート、クラウドソース、非専門家からの非同期フィードバックのみを必要とする、Webインターフェースにロボットエクスペリエンスをストリームする。
論文 参考訳(メタデータ) (2023-10-31T16:43:56Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Don't Start From Scratch: Leveraging Prior Data to Automate Robotic
Reinforcement Learning [70.70104870417784]
強化学習(RL)アルゴリズムは、ロボットシステムの自律的なスキル獲得を可能にするという約束を持っている。
現実のロボットRLは、通常、環境をリセットするためにデータ収集と頻繁な人間の介入を必要とする。
本研究では,従来のタスクから収集した多様なオフラインデータセットを効果的に活用することで,これらの課題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2022-07-11T08:31:22Z) - Offline Preference-Based Apprenticeship Learning [11.21888613165599]
我々は、オフラインデータセットを使用して、自律システムが人間から学び、適応し、協力しようとするときに直面する2つの課題に対処する方法について研究する。
まず、オフラインデータセットを使用して、プールベースのアクティブな嗜好学習を通じて、人間の報酬関数を効率的に推測する。
第2に、この学習報酬関数から、推定された人間の意図に基づいてポリシーを最適化するオフライン強化学習を行う。
論文 参考訳(メタデータ) (2021-07-20T04:15:52Z) - Vision-Based Autonomous Car Racing Using Deep Imitative Reinforcement
Learning [13.699336307578488]
深層模倣強化学習(DIRL)は、視覚入力を使用してアジャイルな自律レースを実現する。
我々は,高忠実性運転シミュレーションと実世界の1/20スケールRC-car上での車載計算の制限により,本アルゴリズムの有効性を検証した。
論文 参考訳(メタデータ) (2021-07-18T00:00:48Z) - LaND: Learning to Navigate from Disengagements [158.6392333480079]
本研究では,学習者に対する学習支援のための強化学習手法(LaND)を提案する。
LaNDは現在の知覚的観察から、どのアクションが解離につながるかを予測するニューラルネットワークモデルを学び、テスト時計画で解離を回避するアクションを実行する。
以上の結果から,LaNDは多種多様な現実世界の歩道環境を学習し,模倣学習と強化学習の両方に優れることを示した。
論文 参考訳(メタデータ) (2020-10-09T17:21:42Z) - Never Stop Learning: The Effectiveness of Fine-Tuning in Robotic
Reinforcement Learning [109.77163932886413]
本稿では,ロボットによるロボット操作ポリシーを,政治以外の強化学習を通じて微調整することで,新たなバリエーションに適応する方法を示す。
この適応は、タスクをゼロから学習するために必要なデータの0.2%未満を使用する。
事前訓練されたポリシーを適用するという私たちのアプローチは、微調整の過程で大きなパフォーマンス向上につながります。
論文 参考訳(メタデータ) (2020-04-21T17:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。