論文の概要: Causal Policy Gradient for Whole-Body Mobile Manipulation
- arxiv url: http://arxiv.org/abs/2305.04866v4
- Date: Thu, 28 Sep 2023 16:17:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 22:23:54.833107
- Title: Causal Policy Gradient for Whole-Body Mobile Manipulation
- Title(参考訳): 全身移動操作のための因果政策勾配
- Authors: Jiaheng Hu, Peter Stone, Roberto Mart\'in-Mart\'in
- Abstract要約: 我々は、典型的なMoMaタスクのポリシーをトレーニングする新しい強化学習フレームワークであるCausal MoMaを紹介する。
異なるタスクを対象とした3種類の模擬ロボットにおけるCausal MoMaの性能評価を行った。
- 参考スコア(独自算出の注目度): 39.3461626518495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing the next generation of household robot helpers requires combining
locomotion and interaction capabilities, which is generally referred to as
mobile manipulation (MoMa). MoMa tasks are difficult due to the large action
space of the robot and the common multi-objective nature of the task, e.g.,
efficiently reaching a goal while avoiding obstacles. Current approaches often
segregate tasks into navigation without manipulation and stationary
manipulation without locomotion by manually matching parts of the action space
to MoMa sub-objectives (e.g. learning base actions for locomotion objectives
and learning arm actions for manipulation). This solution prevents simultaneous
combinations of locomotion and interaction degrees of freedom and requires
human domain knowledge for both partitioning the action space and matching the
action parts to the sub-objectives. In this paper, we introduce Causal MoMa, a
new reinforcement learning framework to train policies for typical MoMa tasks
that makes use of the most favorable subspace of the robot's action space to
address each sub-objective. Causal MoMa automatically discovers the causal
dependencies between actions and terms of the reward function and exploits
these dependencies through causal policy gradient that reduces gradient
variance compared to previous state-of-the-art reinforcement learning
algorithms, improving convergence and results. We evaluate the performance of
Causal MoMa on three types of simulated robots across different MoMa tasks and
demonstrate success in transferring the policies trained in simulation directly
to a real robot, where our agent is able to follow moving goals and react to
dynamic obstacles while simultaneously and synergistically controlling the
whole-body: base, arm, and head. More information at
https://sites.google.com/view/causal-moma.
- Abstract(参考訳): 次世代の家庭用ロボットヘルパーの開発には、移動操作(MoMa)と呼ばれる移動運動と相互作用機能を組み合わせる必要がある。
MoMaタスクは、ロボットの大きな動作空間と、タスクの共通の多目的性(例えば、障害物を避けながら効率的にゴールに達すること)のため、難しい。
現在のアプローチでは、アクションスペースの一部とmomaサブ目的(例えば、ロコモーション目的の学習ベースアクションと操作のためのアームアクションの学習)を手動でマッチングすることで、操作やロコモーションのない定常操作なしでタスクをナビゲーションに分離することが多い。
このソリューションは、移動と相互作用の自由度の同時組み合わせを防止し、アクション空間を分割し、アクション部分をサブオブジェクトに合わせるために、人間のドメイン知識を必要とする。
本稿では,ロボットのアクション空間の最も望ましい部分空間を利用して,各サブオブジェクトに対処する典型的なMoMaタスクに対するポリシーをトレーニングする,新しい強化学習フレームワークであるCausal MoMaを紹介する。
Causal MoMaは、アクションと報酬関数の項間の因果依存性を自動的に発見し、従来の最先端強化学習アルゴリズムと比較して勾配のばらつきを低減し、収束と結果を改善する因果ポリシー勾配を通じてこれらの依存関係を利用する。
各種のMoMaタスクにまたがる3種類の模擬ロボットにおけるCausal MoMaの性能評価を行い、シミュレーションで訓練されたポリシーを直接実際のロボットに転送し、エージェントは移動目標に従って動的障害物に反応し、同時にベース、アーム、ヘッドを相乗的に制御できることを示す。
詳細はhttps://sites.google.com/view/causal-momaを参照。
関連論文リスト
- Zero-Cost Whole-Body Teleoperation for Mobile Manipulation [8.71539730969424]
MoMa-Teleopは、ベースモーションを強化学習エージェントに委譲する新しい遠隔操作手法である。
提案手法は,様々なロボットやタスクに対して,タスク完了時間が大幅に短縮されることを実証する。
論文 参考訳(メタデータ) (2024-09-23T15:09:45Z) - HYPERmotion: Learning Hybrid Behavior Planning for Autonomous Loco-manipulation [7.01404330241523]
HYPERmotionは、異なるシナリオのタスクに基づいて行動を学び、選択し、計画するフレームワークである。
強化学習と全身最適化を組み合わせることで,38関節の運動を生成する。
シミュレーションと実世界の実験では、学習した動きが新しいタスクに効率的に適応できることが示されている。
論文 参考訳(メタデータ) (2024-06-20T18:21:24Z) - Nonprehensile Planar Manipulation through Reinforcement Learning with
Multimodal Categorical Exploration [8.343657309038285]
強化学習はそのようなロボットコントローラを開発するための強力なフレームワークである。
分類分布を用いたマルチモーダル探索手法を提案する。
学習したポリシは外部の障害や観測ノイズに対して堅牢であり、複数のプッシュ器でタスクにスケールできることが示される。
論文 参考訳(メタデータ) (2023-08-04T16:55:00Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - Model Predictive Control for Fluid Human-to-Robot Handovers [50.72520769938633]
人間の快適さを考慮に入れた計画運動は、人間ロボットのハンドオーバプロセスの一部ではない。
本稿では,効率的なモデル予測制御フレームワークを用いてスムーズな動きを生成することを提案する。
ユーザ数名の多様なオブジェクトに対して,人間とロボットのハンドオーバ実験を行う。
論文 参考訳(メタデータ) (2022-03-31T23:08:20Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z) - Articulated Object Interaction in Unknown Scenes with Whole-Body Mobile
Manipulation [16.79185733369416]
未知の環境下における大型関節オブジェクトとの自律的相互作用のための2段階アーキテクチャを提案する。
第1段階は学習モデルを用いて、RGB-D入力から対象物の調音モデルを推定し、相互作用のための状態の動作条件列を予測する。
第2段階は、生成した運動計画に沿ってオブジェクトを操作する全身運動制御装置からなる。
論文 参考訳(メタデータ) (2021-03-18T21:32:18Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - ReLMoGen: Leveraging Motion Generation in Reinforcement Learning for
Mobile Manipulation [99.2543521972137]
ReLMoGenは、サブゴールを予測するための学習されたポリシーと、これらのサブゴールに到達するために必要な動作を計画し実行するためのモーションジェネレータを組み合わせたフレームワークである。
本手法は,フォトリアリスティック・シミュレーション環境における7つのロボットタスクの多種多様なセットをベンチマークする。
ReLMoGenは、テスト時に異なるモーションジェネレータ間で顕著な転送可能性を示し、実際のロボットに転送する大きな可能性を示している。
論文 参考訳(メタデータ) (2020-08-18T08:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。