論文の概要: ManiGaussian: Dynamic Gaussian Splatting for Multi-task Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2403.08321v2
- Date: Thu, 18 Jul 2024 04:45:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 21:11:56.728412
- Title: ManiGaussian: Dynamic Gaussian Splatting for Multi-task Robotic Manipulation
- Title(参考訳): ManiGaussian:マルチタスクロボットマニピュレーションのための動的ガウススプレイティング
- Authors: Guanxing Lu, Shiyi Zhang, Ziwei Wang, Changliu Liu, Jiwen Lu, Yansong Tang,
- Abstract要約: 従来のロボット操作法は通常、予測のための観察の意味表現を学ぶ。
マルチ時間ロボット操作のための動的ガウス分割法ManiGaussianを提案する。
我々のフレームワークは、最先端の手法を平均的な成功率で13.1%上回ることができる。
- 参考スコア(独自算出の注目度): 58.615616224739654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Performing language-conditioned robotic manipulation tasks in unstructured environments is highly demanded for general intelligent robots. Conventional robotic manipulation methods usually learn semantic representation of the observation for action prediction, which ignores the scene-level spatiotemporal dynamics for human goal completion. In this paper, we propose a dynamic Gaussian Splatting method named ManiGaussian for multi-task robotic manipulation, which mines scene dynamics via future scene reconstruction. Specifically, we first formulate the dynamic Gaussian Splatting framework that infers the semantics propagation in the Gaussian embedding space, where the semantic representation is leveraged to predict the optimal robot action. Then, we build a Gaussian world model to parameterize the distribution in our dynamic Gaussian Splatting framework, which provides informative supervision in the interactive environment via future scene reconstruction. We evaluate our ManiGaussian on 10 RLBench tasks with 166 variations, and the results demonstrate our framework can outperform the state-of-the-art methods by 13.1\% in average success rate. Project page: https://guanxinglu.github.io/ManiGaussian/.
- Abstract(参考訳): 言語条件付きロボット操作タスクを非構造化環境で実行することは、汎用知能ロボットには非常に要求される。
従来のロボット操作法は、通常、人間の目標達成のためのシーンレベルの時空間力学を無視したアクション予測のための観察の意味表現を学習する。
本稿では,マルチタスクロボット操作のための動的ガウススティング手法であるManiGaussianを提案する。
具体的には,まず,ガウス埋め込み空間のセマンティックス伝播を推論する動的ガウススティングフレームワークを定式化し,そのセマンティック表現を利用して最適なロボット動作を予測する。
そこで我々は,動的ガウス平滑化フレームワークにおける分布をパラメータ化するためのガウス世界モデルを構築し,将来のシーン再構築を通じて対話環境における情報監督を行う。
166変数のRLBenchタスクに対して,ManiGaussianを評価した結果,平均成功率を13.1倍に向上させることができた。
プロジェクトページ: https://guanxinglu.github.io/ManiGaussian/
関連論文リスト
- DeSiRe-GS: 4D Street Gaussians for Static-Dynamic Decomposition and Surface Reconstruction for Urban Driving Scenes [71.61083731844282]
本稿では,自己教師型ガウススプラッティング表現であるDeSiRe-GSについて述べる。
複雑な駆動シナリオにおいて、効率的な静的・動的分解と高忠実な表面再構成を可能にする。
論文 参考訳(メタデータ) (2024-11-18T05:49:16Z) - GaussianPrediction: Dynamic 3D Gaussian Prediction for Motion Extrapolation and Free View Synthesis [71.24791230358065]
動的シーンモデリングと将来のシナリオ合成により,3次元ガウス表現を実現する新しいフレームワークを提案する。
GaussianPredictionは、ダイナミックなシーンのビデオ観察を使用して、あらゆる視点から将来の状態を予測できる。
本フレームワークは,合成データセットと実世界のデータセットの両方で優れた性能を示し,将来の環境の予測とレンダリングの有効性を示す。
論文 参考訳(メタデータ) (2024-05-30T06:47:55Z) - Active Exploration for Robotic Manipulation [40.39182660794481]
本稿では,スパース・リワード型ロボット操作作業における効率的な学習を可能にするモデルに基づく能動探索手法を提案する。
我々は,提案アルゴリズムをシミュレーションおよび実ロボットで評価し,スクラッチから本手法を訓練した。
論文 参考訳(メタデータ) (2022-10-23T18:07:51Z) - ProcTHOR: Large-Scale Embodied AI Using Procedural Generation [55.485985317538194]
ProcTHORは、Embodied AI環境の手続き的生成のためのフレームワークである。
ナビゲーション、アレンジメント、アーム操作のための6つの具体化されたAIベンチマークに対して、最先端の結果を実証する。
論文 参考訳(メタデータ) (2022-06-14T17:09:35Z) - Factored World Models for Zero-Shot Generalization in Robotic
Manipulation [7.258229016768018]
我々は、オブジェクト指向世界モデルを用いてロボットピック・アンド・プレイス・タスクを一般化することを学ぶ。
グラフニューラルネットワークの残差スタックを使用して、ノードとエッジの両方のニューラルネットワークにおいて、複数のレベルのアクション情報を受信する。
モデルアンサンブルを用いて、最大12個のピック・アンド・プレイス・アクションを含むタスクを検索で計画できることが示される。
論文 参考訳(メタデータ) (2022-02-10T21:26:11Z) - Learning Human Motion Prediction via Stochastic Differential Equations [19.30774202476477]
本稿では,微分方程式と経路積分に基づく動き予測問題をモデル化する新しい手法を提案する。
平均して12.48%の精度向上を実現している。
論文 参考訳(メタデータ) (2021-12-21T11:55:13Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z) - Few-Shot Visual Grounding for Natural Human-Robot Interaction [0.0]
本稿では,人間ユーザによって音声で示される,混み合ったシーンから対象物を分割するソフトウェアアーキテクチャを提案する。
システムのコアでは、視覚的な接地のためにマルチモーダルディープニューラルネットワークを使用します。
公開シーンデータセットから収集した実RGB-Dデータに対して,提案モデルの性能を評価する。
論文 参考訳(メタデータ) (2021-03-17T15:24:02Z) - Deep Imitation Learning for Bimanual Robotic Manipulation [70.56142804957187]
本稿では,ロボットによるバイマニュアル操作のための深層模倣学習フレームワークを提案する。
中心となる課題は、操作スキルを異なる場所にあるオブジェクトに一般化することである。
i)マルチモーダルダイナミクスを要素運動プリミティブに分解し、(ii)リカレントグラフニューラルネットワークを用いて各プリミティブをパラメータ化して相互作用を捕捉し、(iii)プリミティブを逐次的に構成する高レベルプランナと、プリミティブダイナミクスと逆運動学制御を組み合わせた低レベルコントローラを統合することを提案する。
論文 参考訳(メタデータ) (2020-10-11T01:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。