論文の概要: Robot Learning of Mobile Manipulation with Reachability Behavior Priors
- arxiv url: http://arxiv.org/abs/2203.04051v1
- Date: Tue, 8 Mar 2022 12:44:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 14:24:20.235061
- Title: Robot Learning of Mobile Manipulation with Reachability Behavior Priors
- Title(参考訳): 到達性を考慮した移動操作のロボット学習
- Authors: Snehal Jauhri, Jan Peters, Georgia Chalvatzaki
- Abstract要約: モバイルマニピュレーション(MM)システムは、非構造化現実環境におけるパーソナルアシスタントの役割を引き継ぐ上で理想的な候補である。
その他の課題として、MMは移動性と操作性の両方を必要とするタスクを実行するために、ロボットの実施形態を効果的に調整する必要がある。
本研究では,アクタ批判的RL手法におけるロボットの到達可能性の先行性の統合について検討した。
- 参考スコア(独自算出の注目度): 38.49783454634775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mobile Manipulation (MM) systems are ideal candidates for taking up the role
of a personal assistant in unstructured real-world environments. Among other
challenges, MM requires effective coordination of the robot's embodiments for
executing tasks that require both mobility and manipulation. Reinforcement
Learning (RL) holds the promise of endowing robots with adaptive behaviors, but
most methods require prohibitively large amounts of data for learning a useful
control policy. In this work, we study the integration of robotic reachability
priors in actor-critic RL methods for accelerating the learning of MM for
reaching and fetching tasks. Namely, we consider the problem of optimal base
placement and the subsequent decision of whether to activate the arm for
reaching a 6D target. For this, we devise a novel Hybrid RL method that handles
discrete and continuous actions jointly, resorting to the Gumbel-Softmax
reparameterization. Next, we train a reachability prior using data from the
operational robot workspace, inspired by classical methods. Subsequently, we
derive Boosted Hybrid RL (BHyRL), a novel algorithm for learning Q-functions by
modeling them as a sum of residual approximators. Every time a new task needs
to be learned, we can transfer our learned residuals and learn the component of
the Q-function that is task-specific, hence, maintaining the task structure
from prior behaviors. Moreover, we find that regularizing the target policy
with a prior policy yields more expressive behaviors. We evaluate our method in
simulation in reaching and fetching tasks of increasing difficulty, and we show
the superior performance of BHyRL against baseline methods. Finally, we
zero-transfer our learned 6D fetching policy with BHyRL to our MM robot
TIAGo++. For more details and code release, please refer to our project site:
irosalab.com/rlmmbp
- Abstract(参考訳): モバイルマニピュレーション(MM)システムは、非構造化現実環境におけるパーソナルアシスタントの役割を引き継ぐ上で理想的な候補である。
その他の課題として、MMは移動と操作の両方を必要とするタスクを実行するために、ロボットの実施形態を効果的に調整する必要がある。
強化学習(Reinforcement Learning, RL)は、ロボットに適応的な行動を与えるという約束を持っているが、ほとんどの方法は、有用な制御ポリシーを学ぶために、違法に大量のデータを必要とする。
本研究では,アクタクリティカルなRL手法におけるロボットの到達可能性の先行性の統合について検討し,MMの学習を高速化し,タスクの到達とフェッチを促進させる。
すなわち、最適なベース配置の問題と、6D目標に到達するためのアームを活性化するかというその後の決定について考察する。
そこで我々は,Gumbel-Softmax再パラメータ化を利用して,離散的かつ連続的な動作を共同で扱うハイブリッドRL法を提案する。
次に,従来の手法にインスパイアされた操作ロボットワークスペースのデータを用いて,リーチビリティをトレーニングする。
次に、残差近似器の和としてモデル化してQ関数を学習する新しいアルゴリズムであるBoosted Hybrid RL(BHyRL)を導出する。
新しいタスクを学習するたびに、学習した残余を転送し、タスク固有のQ関数のコンポーネントを学ぶことができ、従ってタスク構造を以前の動作から維持することができます。
さらに, 対象政策を事前方針で規則化すると, より表現力のある行動が生じることが判明した。
本手法は,難易度を増大させるタスクの到達と取得のシミュレーションにおいて評価し,ベースライン法に対するbhyrlの優れた性能を示す。
最後に、学習したBHyRLによる6DフェッチポリシーをMMロボットTIAGo++にゼロ転送する。
詳細とコードのリリースについては、プロジェクトサイトを参照してください。
関連論文リスト
- Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。
提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous
Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。
我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。
本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文 参考訳(メタデータ) (2023-09-06T19:05:31Z) - Few-Shot Preference Learning for Human-in-the-Loop RL [13.773589150740898]
メタラーニングの成功に触発された我々は、先行タスクデータに対する嗜好モデルを事前訓練し、少数のクエリだけで新しいタスクに迅速に適応する。
メタワールドにおける操作ポリシーのトレーニングに必要なオンラインフィードバックの量を20$times$に削減し,実際のフランカ・パンダロボット上での手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-12-06T23:12:26Z) - Robot Learning on the Job: Human-in-the-Loop Autonomy and Learning
During Deployment [25.186525630548356]
Siriusは、人間とロボットが共同作業を行うための、原則化されたフレームワークである。
部分的に自律的なロボットは、意思決定の大部分を確実に行うことを任務としている。
タスク実行から収集したデータに対するポリシーの性能を改善するための新しい学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-15T18:53:39Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - Learning of Parameters in Behavior Trees for Movement Skills [0.9562145896371784]
振舞い木(BT)は、モジュラーと構成可能なスキルをサポートするポリシー表現を提供することができる。
本稿では,BTポリシーのパラメータをシミュレーションで学習し,追加のトレーニングを伴わずに物理ロボットに一般化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-27T13:46:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。