論文の概要: ManiGaussian: Dynamic Gaussian Splatting for Multi-task Robotic
Manipulation
- arxiv url: http://arxiv.org/abs/2403.08321v1
- Date: Wed, 13 Mar 2024 08:06:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 15:16:12.133574
- Title: ManiGaussian: Dynamic Gaussian Splatting for Multi-task Robotic
Manipulation
- Title(参考訳): ManiGaussian:マルチタスクロボットのための動的ガウススプレイティング
マニピュレーション
- Authors: Guanxing Lu, Shiyi Zhang, Ziwei Wang, Changliu Liu, Jiwen Lu, Yansong
Tang
- Abstract要約: マルチタスクロボット操作のための動的ガウス分割法ManiGaussianを提案する。
我々のフレームワークは、最先端の手法を平均的な成功率で13.1%上回ることができる。
- 参考スコア(独自算出の注目度): 62.11003432816657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Performing language-conditioned robotic manipulation tasks in unstructured
environments is highly demanded for general intelligent robots. Conventional
robotic manipulation methods usually learn semantic representation of the
observation for action prediction, which ignores the scene-level spatiotemporal
dynamics for human goal completion. In this paper, we propose a dynamic
Gaussian Splatting method named ManiGaussian for multi-task robotic
manipulation, which mines scene dynamics via future scene reconstruction.
Specifically, we first formulate the dynamic Gaussian Splatting framework that
infers the semantics propagation in the Gaussian embedding space, where the
semantic representation is leveraged to predict the optimal robot action. Then,
we build a Gaussian world model to parameterize the distribution in our dynamic
Gaussian Splatting framework, which provides informative supervision in the
interactive environment via future scene reconstruction. We evaluate our
ManiGaussian on 10 RLBench tasks with 166 variations, and the results
demonstrate our framework can outperform the state-of-the-art methods by 13.1\%
in average success rate.
- Abstract(参考訳): 言語条件付きロボット操作タスクを非構造化環境で実行することは、汎用知能ロボットには非常に要求される。
従来のロボット操作法は、通常、人間の目標達成のためのシーンレベルの時空間力学を無視したアクション予測のための観察の意味表現を学習する。
本稿では,マルチタスクロボット操作のための動的ガウススティング手法であるManiGaussianを提案する。
具体的には,まず,ガウス埋め込み空間のセマンティックス伝播を推論する動的ガウススティングフレームワークを定式化し,そのセマンティック表現を利用して最適なロボット動作を予測する。
そこで我々は,動的ガウス平滑化フレームワークにおける分布をパラメータ化するためのガウス世界モデルを構築し,将来のシーン再構築を通じて対話環境における情報監督を行う。
166変数のRLBenchタスクに対して,ManiGaussianを評価した結果,平均成功率を13.1倍に向上させることができた。
関連論文リスト
- RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning
via Generative Simulation [64.51563634951394]
RoboGenはジェネレーティブなロボットエージェントで、ジェネレーティブなシミュレーションを通じて、さまざまなロボットのスキルを自動的に学習する。
我々の研究は、大規模モデルに埋め込まれた広範囲で多目的な知識を抽出し、それらをロボット工学の分野に移す試みである。
論文 参考訳(メタデータ) (2023-11-02T17:59:21Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - Active Exploration for Robotic Manipulation [40.39182660794481]
本稿では,スパース・リワード型ロボット操作作業における効率的な学習を可能にするモデルに基づく能動探索手法を提案する。
我々は,提案アルゴリズムをシミュレーションおよび実ロボットで評価し,スクラッチから本手法を訓練した。
論文 参考訳(メタデータ) (2022-10-23T18:07:51Z) - ProcTHOR: Large-Scale Embodied AI Using Procedural Generation [55.485985317538194]
ProcTHORは、Embodied AI環境の手続き的生成のためのフレームワークである。
ナビゲーション、アレンジメント、アーム操作のための6つの具体化されたAIベンチマークに対して、最先端の結果を実証する。
論文 参考訳(メタデータ) (2022-06-14T17:09:35Z) - Learning Human Motion Prediction via Stochastic Differential Equations [19.30774202476477]
本稿では,微分方程式と経路積分に基づく動き予測問題をモデル化する新しい手法を提案する。
平均して12.48%の精度向上を実現している。
論文 参考訳(メタデータ) (2021-12-21T11:55:13Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z) - Few-Shot Visual Grounding for Natural Human-Robot Interaction [0.0]
本稿では,人間ユーザによって音声で示される,混み合ったシーンから対象物を分割するソフトウェアアーキテクチャを提案する。
システムのコアでは、視覚的な接地のためにマルチモーダルディープニューラルネットワークを使用します。
公開シーンデータセットから収集した実RGB-Dデータに対して,提案モデルの性能を評価する。
論文 参考訳(メタデータ) (2021-03-17T15:24:02Z) - Deep Imitation Learning for Bimanual Robotic Manipulation [70.56142804957187]
本稿では,ロボットによるバイマニュアル操作のための深層模倣学習フレームワークを提案する。
中心となる課題は、操作スキルを異なる場所にあるオブジェクトに一般化することである。
i)マルチモーダルダイナミクスを要素運動プリミティブに分解し、(ii)リカレントグラフニューラルネットワークを用いて各プリミティブをパラメータ化して相互作用を捕捉し、(iii)プリミティブを逐次的に構成する高レベルプランナと、プリミティブダイナミクスと逆運動学制御を組み合わせた低レベルコントローラを統合することを提案する。
論文 参考訳(メタデータ) (2020-10-11T01:40:03Z) - Planning from Images with Deep Latent Gaussian Process Dynamics [2.924868086534434]
計画は既知の環境力学の問題を制御するための強力なアプローチである。
未知の環境では、エージェントは計画を適用するためにシステムダイナミクスのモデルを学ぶ必要がある。
本稿では,環境と視覚的相互作用から低次元システムダイナミクスを学習する,遅延ガウス過程力学(DLGPD)モデルを提案する。
論文 参考訳(メタデータ) (2020-05-07T21:29:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。