論文の概要: Causal Policy Gradient for Whole-Body Mobile Manipulation
- arxiv url: http://arxiv.org/abs/2305.04866v1
- Date: Thu, 4 May 2023 23:23:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 13:32:12.196703
- Title: Causal Policy Gradient for Whole-Body Mobile Manipulation
- Title(参考訳): 全身移動操作のための因果政策勾配
- Authors: Jiaheng Hu, Peter Stone, Roberto Mart\'in-Mart\'in
- Abstract要約: Causal MoMaは、典型的なMoMaタスクのポリシーをトレーニングする新しいフレームワークである。
ロボットのアクション空間の最も好ましい部分空間を利用して、各サブオブジェクトに対処する。
異なるタスクを対象とした3種類の模擬ロボットにおけるCausal MoMaの性能評価を行った。
- 参考スコア(独自算出の注目度): 40.41394413668168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing the next generation of household robot helpers requires combining
locomotion and interaction capabilities, which is generally referred to as
mobile manipulation (MoMa). MoMa tasks are difficult due to the large action
space of the robot and the common multi-objective nature of the task, e.g.,
efficiently reaching a goal while avoiding obstacles. Current approaches often
segregate tasks into navigation without manipulation and stationary
manipulation without locomotion by manually matching parts of the action space
to MoMa sub-objectives (e.g. base actions for locomotion objectives and arm
actions for manipulation). This solution prevents simultaneous combinations of
locomotion and interaction degrees of freedom and requires human domain
knowledge for both partitioning the action space and matching the action parts
to the sub-objectives. In this paper, we introduce Causal MoMa, a new framework
to train policies for typical MoMa tasks that makes use of the most favorable
subspace of the robot's action space to address each sub-objective. Causal MoMa
automatically discovers the causal dependencies between actions and terms of
the reward function and exploits these dependencies in a causal policy learning
procedure that reduces gradient variance compared to previous state-of-the-art
policy gradient algorithms, improving convergence and results. We evaluate the
performance of Causal MoMa on three types of simulated robots across different
MoMa tasks and demonstrate success in transferring the policies trained in
simulation directly to a real robot, where our agent is able to follow moving
goals and react to dynamic obstacles while simultaneously and synergistically
controlling the whole-body: base, arm, and head. More information at
https://sites.google.com/view/causal-moma.
- Abstract(参考訳): 次世代の家庭用ロボットヘルパーの開発には、移動操作(MoMa)と呼ばれる移動運動と相互作用機能を組み合わせる必要がある。
MoMaタスクは、ロボットの大きな動作空間と、タスクの共通の多目的性(例えば、障害物を避けながら効率的にゴールに達すること)のため、難しい。
現在のアプローチでは、動作空間の一部をMoMaサブオブジェクト(例えば、移動目的のためのベースアクションと操作のためのアームアクション)に手動でマッチングすることで、操作なしでタスクをナビゲーションに分離する。
このソリューションは、移動と相互作用の自由度の同時組み合わせを防止し、アクション空間を分割し、アクション部分をサブオブジェクトに合わせるために、人間のドメイン知識を必要とする。
本稿では,ロボットの動作空間の最も好ましい部分空間を利用して各サブオブジェクトに対処する,典型的なMoMaタスクに対するポリシーをトレーニングする新しいフレームワークであるCausal MoMaを紹介する。
因果モマは、アクションと報酬関数の項の間の因果依存性を自動的に発見し、これらの依存関係を因果ポリシー学習手順で活用し、以前の最先端ポリシー勾配アルゴリズムと比較して勾配分散を減少させ、収束と結果を改善する。
各種のMoMaタスクにまたがる3種類の模擬ロボットにおけるCausal MoMaの性能評価を行い、シミュレーションで訓練されたポリシーを直接実際のロボットに転送し、エージェントは移動目標に従って動的障害物に反応し、同時にベース、アーム、ヘッドを相乗的に制御できることを示す。
詳細はhttps://sites.google.com/view/causal-momaを参照。
関連論文リスト
- Zero-Cost Whole-Body Teleoperation for Mobile Manipulation [8.71539730969424]
MoMa-Teleopは、ベースモーションを強化学習エージェントに委譲する新しい遠隔操作手法である。
提案手法は,様々なロボットやタスクに対して,タスク完了時間が大幅に短縮されることを実証する。
論文 参考訳(メタデータ) (2024-09-23T15:09:45Z) - HYPERmotion: Learning Hybrid Behavior Planning for Autonomous Loco-manipulation [7.01404330241523]
HYPERmotionは、異なるシナリオのタスクに基づいて行動を学び、選択し、計画するフレームワークである。
強化学習と全身最適化を組み合わせることで,38関節の運動を生成する。
シミュレーションと実世界の実験では、学習した動きが新しいタスクに効率的に適応できることが示されている。
論文 参考訳(メタデータ) (2024-06-20T18:21:24Z) - Nonprehensile Planar Manipulation through Reinforcement Learning with
Multimodal Categorical Exploration [8.343657309038285]
強化学習はそのようなロボットコントローラを開発するための強力なフレームワークである。
分類分布を用いたマルチモーダル探索手法を提案する。
学習したポリシは外部の障害や観測ノイズに対して堅牢であり、複数のプッシュ器でタスクにスケールできることが示される。
論文 参考訳(メタデータ) (2023-08-04T16:55:00Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - Model Predictive Control for Fluid Human-to-Robot Handovers [50.72520769938633]
人間の快適さを考慮に入れた計画運動は、人間ロボットのハンドオーバプロセスの一部ではない。
本稿では,効率的なモデル予測制御フレームワークを用いてスムーズな動きを生成することを提案する。
ユーザ数名の多様なオブジェクトに対して,人間とロボットのハンドオーバ実験を行う。
論文 参考訳(メタデータ) (2022-03-31T23:08:20Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z) - Articulated Object Interaction in Unknown Scenes with Whole-Body Mobile
Manipulation [16.79185733369416]
未知の環境下における大型関節オブジェクトとの自律的相互作用のための2段階アーキテクチャを提案する。
第1段階は学習モデルを用いて、RGB-D入力から対象物の調音モデルを推定し、相互作用のための状態の動作条件列を予測する。
第2段階は、生成した運動計画に沿ってオブジェクトを操作する全身運動制御装置からなる。
論文 参考訳(メタデータ) (2021-03-18T21:32:18Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - ReLMoGen: Leveraging Motion Generation in Reinforcement Learning for
Mobile Manipulation [99.2543521972137]
ReLMoGenは、サブゴールを予測するための学習されたポリシーと、これらのサブゴールに到達するために必要な動作を計画し実行するためのモーションジェネレータを組み合わせたフレームワークである。
本手法は,フォトリアリスティック・シミュレーション環境における7つのロボットタスクの多種多様なセットをベンチマークする。
ReLMoGenは、テスト時に異なるモーションジェネレータ間で顕著な転送可能性を示し、実際のロボットに転送する大きな可能性を示している。
論文 参考訳(メタデータ) (2020-08-18T08:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。