論文の概要: ManiGaussian++: General Robotic Bimanual Manipulation with Hierarchical Gaussian World Model
- arxiv url: http://arxiv.org/abs/2506.19842v1
- Date: Tue, 24 Jun 2025 17:59:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 14:36:56.673413
- Title: ManiGaussian++: General Robotic Bimanual Manipulation with Hierarchical Gaussian World Model
- Title(参考訳): ManiGaussian++:階層型ガウス世界モデルを用いた汎用ロボットバイマニピュレーション
- Authors: Tengbo Yu, Guanxing Lu, Zaijia Yang, Haoyuan Deng, Season Si Chen, Jiwen Lu, Wenbo Ding, Guoqiang Hu, Yansong Tang, Ziwei Wang,
- Abstract要約: 本稿では,階層的世界モデルを用いてマルチタスクシーンのダイナミックスを消化することにより,双方向操作を改善するManiGaussianフレームワークの拡張を提案する。
提案手法は,シミュレーションタスク10件で20.2%,実世界の課題9件で平均60%の成功率で,最先端のバイマニュアル操作技術よりも優れていた。
- 参考スコア(独自算出の注目度): 52.02220087880269
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-task robotic bimanual manipulation is becoming increasingly popular as it enables sophisticated tasks that require diverse dual-arm collaboration patterns. Compared to unimanual manipulation, bimanual tasks pose challenges to understanding the multi-body spatiotemporal dynamics. An existing method ManiGaussian pioneers encoding the spatiotemporal dynamics into the visual representation via Gaussian world model for single-arm settings, which ignores the interaction of multiple embodiments for dual-arm systems with significant performance drop. In this paper, we propose ManiGaussian++, an extension of ManiGaussian framework that improves multi-task bimanual manipulation by digesting multi-body scene dynamics through a hierarchical Gaussian world model. To be specific, we first generate task-oriented Gaussian Splatting from intermediate visual features, which aims to differentiate acting and stabilizing arms for multi-body spatiotemporal dynamics modeling. We then build a hierarchical Gaussian world model with the leader-follower architecture, where the multi-body spatiotemporal dynamics is mined for intermediate visual representation via future scene prediction. The leader predicts Gaussian Splatting deformation caused by motions of the stabilizing arm, through which the follower generates the physical consequences resulted from the movement of the acting arm. As a result, our method significantly outperforms the current state-of-the-art bimanual manipulation techniques by an improvement of 20.2% in 10 simulated tasks, and achieves 60% success rate on average in 9 challenging real-world tasks. Our code is available at https://github.com/April-Yz/ManiGaussian_Bimanual.
- Abstract(参考訳): 多様なデュアルアームの協調パターンを必要とする高度なタスクを可能にするため、マルチタスクのロボットバイマニュアル操作はますます人気が高まっている。
一元的操作と比較して、二元的タスクは多体時空間力学を理解するのに困難をもたらす。
既存のManiGaussianのパイオニアであるManiGaussian氏は、単一アーム設定のためのガウス世界モデルによる視覚表現に時空間力学をエンコードする手法を開発した。
本稿では,階層的なガウス世界モデルを通じて多体シーンのダイナミックスを消化することにより,マルチタスクのバイマニュアル操作を改善するManiGaussian++を提案する。
具体的には,マルチボディ時空間力学モデリングのための動作と安定化アームの区別を目的とした,中間視覚特徴からタスク指向ガウススプラッティングを生成する。
次に,階層型ガウス世界モデルをリーダ・フォロワーアーキテクチャで構築し,将来的なシーン予測を通じて,多体時空間ダイナミクスを中間的視覚表現として検討する。
リーダは、スタビライズアームの動きによって生じるガウススプラッティング変形を予測し、従者が作用アームの動きによって生じる物理的結果を生成する。
その結果,10タスクで20.2%向上し,9タスクで平均60%の成功率を達成した。
私たちのコードはhttps://github.com/ April-Yz/ManiGaussian_Bimanual.comで利用可能です。
関連論文リスト
- MinD: Unified Visual Imagination and Control via Hierarchical World Models [32.08769443927576]
ビデオ生成モデル(VGM)は、ロボット工学における統一世界モデリングのための有望な経路を提供する。
Manipulate in Dream (MinD) は階層的拡散に基づく世界モデルフレームワークであり、視覚言語操作にデュアルシステム設計を採用する。
MinDは、VGMを低周波で実行し、リアルタイムインタラクションに高周波拡散ポリシを活用しながら、映像予測特徴を抽出する。
論文 参考訳(メタデータ) (2025-06-23T17:59:06Z) - GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。
我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。
我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文 参考訳(メタデータ) (2025-05-02T17:59:55Z) - ManiGaussian: Dynamic Gaussian Splatting for Multi-task Robotic Manipulation [58.615616224739654]
従来のロボット操作法は通常、予測のための観察の意味表現を学ぶ。
マルチ時間ロボット操作のための動的ガウス分割法ManiGaussianを提案する。
我々のフレームワークは、最先端の手法を平均的な成功率で13.1%上回ることができる。
論文 参考訳(メタデータ) (2024-03-13T08:06:41Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Deep Imitation Learning for Bimanual Robotic Manipulation [70.56142804957187]
本稿では,ロボットによるバイマニュアル操作のための深層模倣学習フレームワークを提案する。
中心となる課題は、操作スキルを異なる場所にあるオブジェクトに一般化することである。
i)マルチモーダルダイナミクスを要素運動プリミティブに分解し、(ii)リカレントグラフニューラルネットワークを用いて各プリミティブをパラメータ化して相互作用を捕捉し、(iii)プリミティブを逐次的に構成する高レベルプランナと、プリミティブダイナミクスと逆運動学制御を組み合わせた低レベルコントローラを統合することを提案する。
論文 参考訳(メタデータ) (2020-10-11T01:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。