Fugu-MT 論文翻訳(概要): Causal Policy Gradient for Whole-Body Mobile Manipulation

論文の概要: Causal Policy Gradient for Whole-Body Mobile Manipulation

arxiv url: http://arxiv.org/abs/2305.04866v4
Date: Thu, 28 Sep 2023 16:17:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-29 22:23:54.833107
Title: Causal Policy Gradient for Whole-Body Mobile Manipulation
Title（参考訳）: 全身移動操作のための因果政策勾配
Authors: Jiaheng Hu, Peter Stone, Roberto Mart\'in-Mart\'in
Abstract要約: 我々は、典型的なMoMaタスクのポリシーをトレーニングする新しい強化学習フレームワークであるCausal MoMaを紹介する。異なるタスクを対象とした3種類の模擬ロボットにおけるCausal MoMaの性能評価を行った。
参考スコア（独自算出の注目度）: 39.3461626518495
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Developing the next generation of household robot helpers requires combining locomotion and interaction capabilities, which is generally referred to as mobile manipulation (MoMa). MoMa tasks are difficult due to the large action space of the robot and the common multi-objective nature of the task, e.g., efficiently reaching a goal while avoiding obstacles. Current approaches often segregate tasks into navigation without manipulation and stationary manipulation without locomotion by manually matching parts of the action space to MoMa sub-objectives (e.g. learning base actions for locomotion objectives and learning arm actions for manipulation). This solution prevents simultaneous combinations of locomotion and interaction degrees of freedom and requires human domain knowledge for both partitioning the action space and matching the action parts to the sub-objectives. In this paper, we introduce Causal MoMa, a new reinforcement learning framework to train policies for typical MoMa tasks that makes use of the most favorable subspace of the robot's action space to address each sub-objective. Causal MoMa automatically discovers the causal dependencies between actions and terms of the reward function and exploits these dependencies through causal policy gradient that reduces gradient variance compared to previous state-of-the-art reinforcement learning algorithms, improving convergence and results. We evaluate the performance of Causal MoMa on three types of simulated robots across different MoMa tasks and demonstrate success in transferring the policies trained in simulation directly to a real robot, where our agent is able to follow moving goals and react to dynamic obstacles while simultaneously and synergistically controlling the whole-body: base, arm, and head. More information at https://sites.google.com/view/causal-moma.
Abstract（参考訳）: 次世代の家庭用ロボットヘルパーの開発には、移動操作(MoMa)と呼ばれる移動運動と相互作用機能を組み合わせる必要がある。 MoMaタスクは、ロボットの大きな動作空間と、タスクの共通の多目的性(例えば、障害物を避けながら効率的にゴールに達すること)のため、難しい。現在のアプローチでは、アクションスペースの一部とmomaサブ目的(例えば、ロコモーション目的の学習ベースアクションと操作のためのアームアクションの学習)を手動でマッチングすることで、操作やロコモーションのない定常操作なしでタスクをナビゲーションに分離することが多い。このソリューションは、移動と相互作用の自由度の同時組み合わせを防止し、アクション空間を分割し、アクション部分をサブオブジェクトに合わせるために、人間のドメイン知識を必要とする。本稿では,ロボットのアクション空間の最も望ましい部分空間を利用して,各サブオブジェクトに対処する典型的なMoMaタスクに対するポリシーをトレーニングする,新しい強化学習フレームワークであるCausal MoMaを紹介する。 Causal MoMaは、アクションと報酬関数の項間の因果依存性を自動的に発見し、従来の最先端強化学習アルゴリズムと比較して勾配のばらつきを低減し、収束と結果を改善する因果ポリシー勾配を通じてこれらの依存関係を利用する。各種のMoMaタスクにまたがる3種類の模擬ロボットにおけるCausal MoMaの性能評価を行い、シミュレーションで訓練されたポリシーを直接実際のロボットに転送し、エージェントは移動目標に従って動的障害物に反応し、同時にベース、アーム、ヘッドを相乗的に制御できることを示す。詳細はhttps://sites.google.com/view/causal-momaを参照。

関連論文リスト

CoMo: Learning Continuous Latent Motion from Internet Videos for Scalable Robot Learning [47.195002937893115]
CoMoは、多様なインターネットスケールのビデオから、より情報に富んだ連続的な動きの表現を学ぶことを目指している。動作評価と学習指導のための2つの新しい指標を提案する。 CoMoは強力なゼロショットの一般化を示しており、以前は目に見えないビデオドメインに対して連続的な擬似アクションを生成することができる。
論文参考訳（メタデータ） (2025-05-22T17:58:27Z)
FLEX: A Framework for Learning Robot-Agnostic Force-based Skills Involving Sustained Contact Object Manipulation [9.292150395779332]
本稿では,力空間におけるオブジェクト中心の操作ポリシーを学習するための新しいフレームワークを提案する。提案手法は, 動作空間を単純化し, 不要な探索を低減し, シミュレーションオーバーヘッドを低減させる。評価の結果,本手法はベースラインを著しく上回ることがわかった。
論文参考訳（メタデータ） (2025-03-17T17:49:47Z)
Zero-Cost Whole-Body Teleoperation for Mobile Manipulation [8.71539730969424]
MoMa-Teleopは、ベースモーションを強化学習エージェントに委譲する新しい遠隔操作手法である。提案手法は,様々なロボットやタスクに対して,タスク完了時間が大幅に短縮されることを実証する。
論文参考訳（メタデータ） (2024-09-23T15:09:45Z)
HYPERmotion: Learning Hybrid Behavior Planning for Autonomous Loco-manipulation [7.01404330241523]
HYPERmotionは、異なるシナリオのタスクに基づいて行動を学び、選択し、計画するフレームワークである。強化学習と全身最適化を組み合わせることで,38関節の運動を生成する。シミュレーションと実世界の実験では、学習した動きが新しいタスクに効率的に適応できることが示されている。
論文参考訳（メタデータ） (2024-06-20T18:21:24Z)
Nonprehensile Planar Manipulation through Reinforcement Learning with Multimodal Categorical Exploration [8.343657309038285]
強化学習はそのようなロボットコントローラを開発するための強力なフレームワークである。分類分布を用いたマルチモーダル探索手法を提案する。学習したポリシは外部の障害や観測ノイズに対して堅牢であり、複数のプッシュ器でタスクにスケールできることが示される。
論文参考訳（メタデータ） (2023-08-04T16:55:00Z)
Leveraging Sequentiality in Reinforcement Learning from a Single Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文参考訳（メタデータ） (2022-11-09T10:28:40Z)
Model Predictive Control for Fluid Human-to-Robot Handovers [50.72520769938633]
人間の快適さを考慮に入れた計画運動は、人間ロボットのハンドオーバプロセスの一部ではない。本稿では,効率的なモデル予測制御フレームワークを用いてスムーズな動きを生成することを提案する。ユーザ数名の多様なオブジェクトに対して,人間とロボットのハンドオーバ実験を行う。
論文参考訳（メタデータ） (2022-03-31T23:08:20Z)
Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文参考訳（メタデータ） (2021-11-15T18:50:04Z)
Articulated Object Interaction in Unknown Scenes with Whole-Body Mobile Manipulation [16.79185733369416]
未知の環境下における大型関節オブジェクトとの自律的相互作用のための2段階アーキテクチャを提案する。第1段階は学習モデルを用いて、RGB-D入力から対象物の調音モデルを推定し、相互作用のための状態の動作条件列を予測する。第2段階は、生成した運動計画に沿ってオブジェクトを操作する全身運動制御装置からなる。
論文参考訳（メタデータ） (2021-03-18T21:32:18Z)
Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。 NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文参考訳（メタデータ） (2020-12-04T18:59:32Z)
ReLMoGen: Leveraging Motion Generation in Reinforcement Learning for Mobile Manipulation [99.2543521972137]
ReLMoGenは、サブゴールを予測するための学習されたポリシーと、これらのサブゴールに到達するために必要な動作を計画し実行するためのモーションジェネレータを組み合わせたフレームワークである。本手法は,フォトリアリスティック・シミュレーション環境における7つのロボットタスクの多種多様なセットをベンチマークする。 ReLMoGenは、テスト時に異なるモーションジェネレータ間で顕著な転送可能性を示し、実際のロボットに転送する大きな可能性を示している。
論文参考訳（メタデータ） (2020-08-18T08:05:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。