論文の概要: Continuously Improving Mobile Manipulation with Autonomous Real-World RL
- arxiv url: http://arxiv.org/abs/2409.20568v1
- Date: Mon, 30 Sep 2024 17:59:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-02 01:35:17.296757
- Title: Continuously Improving Mobile Manipulation with Autonomous Real-World RL
- Title(参考訳): 自律的実世界RLによるモバイル操作の継続的改善
- Authors: Russell Mendonca, Emmanuel Panov, Bernadette Bucher, Jiuguang Wang, Deepak Pathak,
- Abstract要約: モバイル操作のための完全に自律的な実世界のRLフレームワークを提案する。
これはタスク関連自律性によって実現され、これはオブジェクトのインタラクションへの探索をガイドし、目標状態付近の停滞を防ぐ。
我々は,Spotロボットがモバイル操作タスクの4つの課題に対して,継続的なパフォーマンス向上を可能にすることを実証した。
- 参考スコア(独自算出の注目度): 33.085671103158866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a fully autonomous real-world RL framework for mobile manipulation that can learn policies without extensive instrumentation or human supervision. This is enabled by 1) task-relevant autonomy, which guides exploration towards object interactions and prevents stagnation near goal states, 2) efficient policy learning by leveraging basic task knowledge in behavior priors, and 3) formulating generic rewards that combine human-interpretable semantic information with low-level, fine-grained observations. We demonstrate that our approach allows Spot robots to continually improve their performance on a set of four challenging mobile manipulation tasks, obtaining an average success rate of 80% across tasks, a 3-4 improvement over existing approaches. Videos can be found at https://continual-mobile-manip.github.io/
- Abstract(参考訳): モバイル操作のための完全に自律的な実世界のRLフレームワークを提案する。
これは有効です
1) 課題関連自律性(タスク関連自律性)は、対象の相互作用を探索し、目標状態付近の停滞を防ぐ。
2【行動事前の基本的課題知識を活用した効果的な政策学習】
3)人間の解釈可能な意味情報と低レベルの微粒な観察を組み合わせた一般的な報酬の定式化。
提案手法により,モバイル操作タスクの4つの課題に対して,Spotロボットが継続的なパフォーマンス向上を実現し,タスク間の平均成功率を80%,既存のアプローチよりも3~4倍向上できることを示す。
ビデオはhttps://continual-mobile-manip.github.io/で見ることができる。
関連論文リスト
- EquiBot: SIM(3)-Equivariant Diffusion Policy for Generalizable and Data Efficient Learning [36.0274770291531]
本研究では,ロボット操作タスク学習のための頑健で,データ効率が高く,汎用的なアプローチであるEquiBotを提案する。
提案手法は,SIM(3)等価なニューラルネットワークアーキテクチャと拡散モデルを組み合わせたものである。
実世界では,新しいオブジェクトやシーンに容易に一般化できる6つのモバイル操作タスクの合計10種類のバリエーションが示される。
論文 参考訳(メタデータ) (2024-07-01T17:09:43Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Multi-skill Mobile Manipulation for Object Rearrangement [75.62774690484022]
本研究では,オブジェクト再構成のための長距離移動操作タスクへのモジュラーアプローチについて検討する。
従来の作業チェーンでは、サブタスクで個別に学習するポイントゴールナビゲーションスキルを備えた複数の静止操作スキルがチェーンされている。
静的な操作ではなく,モバイル操作のスキルを実装し,ポイントゴールではなく,地域目標で訓練されたナビゲーションスキルを訓練することで,これらのアイデアを運用する。
論文 参考訳(メタデータ) (2022-09-06T19:02:08Z) - Human-AI Shared Control via Frequency-based Policy Dissection [34.0399894373716]
人間-AI共有制御は、複雑な環境で制御タスクを達成するために、人間がAIと対話し、協力することを可能にする。
従来の強化学習(RL)手法は、人間の制御可能なポリシーを達成するために目標条件付き設計を試みる。
我々は、学習したニューラルコントローラの中間表現とエージェント動作の運動特性を整合させる、TextitPolicy Dissectionと呼ばれるシンプルで効果的な周波数ベースのアプローチを開発した。
論文 参考訳(メタデータ) (2022-05-31T23:57:55Z) - Robot Learning of Mobile Manipulation with Reachability Behavior Priors [38.49783454634775]
モバイルマニピュレーション(MM)システムは、非構造化現実環境におけるパーソナルアシスタントの役割を引き継ぐ上で理想的な候補である。
その他の課題として、MMは移動性と操作性の両方を必要とするタスクを実行するために、ロボットの実施形態を効果的に調整する必要がある。
本研究では,アクタ批判的RL手法におけるロボットの到達可能性の先行性の統合について検討した。
論文 参考訳(メタデータ) (2022-03-08T12:44:42Z) - Error-Aware Imitation Learning from Teleoperation Data for Mobile
Manipulation [54.31414116478024]
移動操作(MM)では、ロボットは環境内を移動して操作することができる。
本研究では,MMタスクに対する連続的なビジュオモダポリシの学習に模倣学習(IL)を適用する方法について検討する。
論文 参考訳(メタデータ) (2021-12-09T23:54:59Z) - ReLMM: Practical RL for Learning Mobile Manipulation Skills Using Only
Onboard Sensors [64.2809875343854]
ロボットは、ナビゲーションと把握の組み合わせを必要とするスキルを自律的に学習する方法について研究する。
我々のシステムであるReLMMは、環境機器を使わずに、現実世界のプラットフォームで継続的に学習することができる。
グラウンドカリキュラムトレーニングフェーズの後、ReLMMは、現実世界のトレーニングの約40時間で、ナビゲーションと完全に自動的なグリップを学習できる。
論文 参考訳(メタデータ) (2021-07-28T17:59:41Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Robot Perception enables Complex Navigation Behavior via Self-Supervised
Learning [23.54696982881734]
本稿では、強化学習(RL)によるアクティブな目標駆動ナビゲーションタスクのためのロボット認識システムの統合手法を提案する。
提案手法は,1つの画像列から直接自己スーパービジョンを用いて得られる,コンパクトな動きと視覚知覚データを時間的に組み込む。
我々は,新しいインタラクティブなCityLearnフレームワークを用いて,実世界の運転データセットであるKITTIとOxford RobotCarのアプローチを実証した。
論文 参考訳(メタデータ) (2020-06-16T07:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。