Fugu-MT 論文翻訳(概要): Bridging Active Exploration and Uncertainty-Aware Deployment Using Probabilistic Ensemble Neural Network Dynamics

論文の概要: Bridging Active Exploration and Uncertainty-Aware Deployment Using Probabilistic Ensemble Neural Network Dynamics

arxiv url: http://arxiv.org/abs/2305.12240v1
Date: Sat, 20 May 2023 17:20:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-23 23:39:55.718676
Title: Bridging Active Exploration and Uncertainty-Aware Deployment Using Probabilistic Ensemble Neural Network Dynamics
Title（参考訳）: 確率的エンサンブルニューラルネットワークダイナミクスを用いたブリッジングアクティブ探索と不確実性対応展開
Authors: Taekyung Kim, Jungwi Mun, Junwon Seo, Beomsu Kim, Seongil Hong
Abstract要約: 本稿では,活発な探索と不確実性を考慮した展開を橋渡しするモデルベース強化学習フレームワークを提案する。探索と展開の対立する2つのタスクは、最先端のサンプリングベースのMPCによって最適化されている。自動運転車と車輪付きロボットの両方で実験を行い、探索と展開の両方に有望な結果を示します。
参考スコア（独自算出の注目度）: 11.946807588018595
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent years, learning-based control in robotics has gained significant attention due to its capability to address complex tasks in real-world environments. With the advances in machine learning algorithms and computational capabilities, this approach is becoming increasingly important for solving challenging control problems in robotics by learning unknown or partially known robot dynamics. Active exploration, in which a robot directs itself to states that yield the highest information gain, is essential for efficient data collection and minimizing human supervision. Similarly, uncertainty-aware deployment has been a growing concern in robotic control, as uncertain actions informed by the learned model can lead to unstable motions or failure. However, active exploration and uncertainty-aware deployment have been studied independently, and there is limited literature that seamlessly integrates them. This paper presents a unified model-based reinforcement learning framework that bridges these two tasks in the robotics control domain. Our framework uses a probabilistic ensemble neural network for dynamics learning, allowing the quantification of epistemic uncertainty via Jensen-Renyi Divergence. The two opposing tasks of exploration and deployment are optimized through state-of-the-art sampling-based MPC, resulting in efficient collection of training data and successful avoidance of uncertain state-action spaces. We conduct experiments on both autonomous vehicles and wheeled robots, showing promising results for both exploration and deployment.
Abstract（参考訳）: 近年,ロボット工学における学習に基づく制御は,実環境における複雑なタスクに対処する能力から注目されている。機械学習アルゴリズムと計算能力の進歩により、このアプローチは未知または部分的に知られているロボットのダイナミクスを学習することでロボットの制御問題を解くためにますます重要になっている。効率的なデータ収集と人間の監督の最小化のためには、ロボットが最高の情報を得る状態へ自身を誘導する能動的探査が不可欠である。同様に、不確実性を認識したデプロイメントは、ロボット制御において、学習されたモデルから情報を得た不確実なアクションが不安定な動きや失敗に繋がる可能性がある、という懸念が高まっている。しかし、活発な探索と不確実性を認識した展開は独立に研究されており、それらをシームレスに統合する文献は限られている。本稿では,ロボット制御領域におけるこれらの2つのタスクをブリッジするモデルベース強化学習フレームワークを提案する。本フレームワークは,確率的アンサンブルニューラルネットワークを用いてダイナミクス学習を行い,jensen-renyiダイバージェンスによる認識的不確かさの定量化を可能にする。調査と展開の対立する2つのタスクは、最先端のサンプリングベースのMPCによって最適化され、トレーニングデータの効率的な収集と、不確実な状態アクション空間の回避に成功した。自動運転車と車輪付きロボットの両方で実験を行い、探索と展開の両方に有望な結果を示す。

関連論文リスト

Unsupervised Learning of Effective Actions in Robotics [0.9374652839580183]
ロボット工学における現在の最先端のアクション表現は、ロボットのアクションに対する適切な効果駆動学習を欠いている。連続運動空間の離散化と「アクションプロトタイプ」生成のための教師なしアルゴリズムを提案する。シミュレーションされた階段登上補強学習課題について,本手法の評価を行った。
論文参考訳（メタデータ） (2024-04-03T13:28:52Z)
Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文参考訳（メタデータ） (2023-10-23T17:50:08Z)
Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from Offline Data [101.43350024175157]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文参考訳（メタデータ） (2023-06-06T01:36:56Z)
Discovering Unsupervised Behaviours from Full-State Trajectories [1.827510863075184]
本稿では,自律的に行動特性を見出す品質多様性アルゴリズムとして,自律型ロボットの能力を実現する手法を提案する。本手法は,ロボットが実状態の軌道から自律的にその能力を見いださなければならないシミュレーションロボット環境において評価する。より具体的には、分析されたアプローチは、ロボットを多様な位置に移動させるポリシーを自律的に見つけるだけでなく、脚を多様な方法で活用し、ハーフロールも行う。
論文参考訳（メタデータ） (2022-11-22T16:57:52Z)
Robot Learning on the Job: Human-in-the-Loop Autonomy and Learning During Deployment [25.186525630548356]
Siriusは、人間とロボットが共同作業を行うための、原則化されたフレームワークである。部分的に自律的なロボットは、意思決定の大部分を確実に行うことを任務としている。タスク実行から収集したデータに対するポリシーの性能を改善するための新しい学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-11-15T18:53:39Z)
Active Exploration for Robotic Manipulation [40.39182660794481]
本稿では,スパース・リワード型ロボット操作作業における効率的な学習を可能にするモデルに基づく能動探索手法を提案する。我々は,提案アルゴリズムをシミュレーションおよび実ロボットで評価し,スクラッチから本手法を訓練した。
論文参考訳（メタデータ） (2022-10-23T18:07:51Z)
Active Predicting Coding: Brain-Inspired Reinforcement Learning for Sparse Reward Robotic Control Problems [79.07468367923619]
ニューラルジェネレーティブ・コーディング(NGC)の神経認知計算フレームワークによるロボット制御へのバックプロパゲーションフリーアプローチを提案する。我々は、スパース報酬から動的オンライン学習を容易にする強力な予測符号化/処理回路から完全に構築されたエージェントを設計する。提案するActPCエージェントは,スパース(外部)報酬信号に対して良好に動作し,複数の強力なバックプロップベースのRLアプローチと競合し,性能が優れていることを示す。
論文参考訳（メタデータ） (2022-09-19T16:49:32Z)
Don't Start From Scratch: Leveraging Prior Data to Automate Robotic Reinforcement Learning [70.70104870417784]
強化学習(RL)アルゴリズムは、ロボットシステムの自律的なスキル獲得を可能にするという約束を持っている。現実のロボットRLは、通常、環境をリセットするためにデータ収集と頻繁な人間の介入を必要とする。本研究では,従来のタスクから収集した多様なオフラインデータセットを効果的に活用することで,これらの課題にどのように対処できるかを検討する。
論文参考訳（メタデータ） (2022-07-11T08:31:22Z)
Revisiting the Adversarial Robustness-Accuracy Tradeoff in Robot Learning [121.9708998627352]
近年の研究では、現実的なロボット学習の応用において、対人訓練の効果が公平なトレードオフを起こさないことが示されている。本研究は,ロボット学習におけるロバストネスと精度のトレードオフを再考し,最近のロバストトレーニング手法と理論の進歩により,現実のロボット応用に適した対人トレーニングが可能かどうかを解析する。
論文参考訳（メタデータ） (2022-04-15T08:12:15Z)
Dual-Arm Adversarial Robot Learning [0.6091702876917281]
ロボット学習のためのプラットフォームとしてデュアルアーム設定を提案する。このセットアップの潜在的なメリットと、追求できる課題と研究の方向性について論じる。
論文参考訳（メタデータ） (2021-10-15T12:51:57Z)
Scalable Multi-Task Imitation Learning with Autonomous Improvement [159.9406205002599]
我々は、自律的なデータ収集を通じて継続的に改善できる模倣学習システムを構築している。我々は、ロボット自身の試行を、実際に試みたタスク以外のタスクのデモとして活用する。従来の模倣学習のアプローチとは対照的に,本手法は,継続的改善のための疎い監視によるデータ収集を自律的に行うことができる。
論文参考訳（メタデータ） (2020-02-25T18:56:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。