論文の概要: M4Diffuser: Multi-View Diffusion Policy with Manipulability-Aware Control for Robust Mobile Manipulation
- arxiv url: http://arxiv.org/abs/2509.14980v1
- Date: Thu, 18 Sep 2025 14:09:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.258094
- Title: M4Diffuser: Multi-View Diffusion Policy with Manipulability-Aware Control for Robust Mobile Manipulation
- Title(参考訳): M4Diffuser:ロバストな移動操作のための操作性を考慮した多視点拡散制御
- Authors: Ju Dong, Lei Zhang, Liding Zhang, Yao Ling, Yu Fu, Kaixin Bai, Zoltán-Csaba Márton, Zhenshan Bing, Zhaopeng Chen, Alois Christian Knoll, Jianwei Zhang,
- Abstract要約: M4Diffuserは、マルチビュー拡散ポリシーとモバイル操作のための新しいReduceed and Manipulability-aware QPコントローラを統合するハイブリッドフレームワークである。
提案手法は,スムーズな全身協調のための堅牢な性能と,目に見えないタスクへの強力な一般化を示す。
- 参考スコア(独自算出の注目度): 17.9979990426915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mobile manipulation requires the coordinated control of a mobile base and a robotic arm while simultaneously perceiving both global scene context and fine-grained object details. Existing single-view approaches often fail in unstructured environments due to limited fields of view, exploration, and generalization abilities. Moreover, classical controllers, although stable, struggle with efficiency and manipulability near singularities. To address these challenges, we propose M4Diffuser, a hybrid framework that integrates a Multi-View Diffusion Policy with a novel Reduced and Manipulability-aware QP (ReM-QP) controller for mobile manipulation. The diffusion policy leverages proprioceptive states and complementary camera perspectives with both close-range object details and global scene context to generate task-relevant end-effector goals in the world frame. These high-level goals are then executed by the ReM-QP controller, which eliminates slack variables for computational efficiency and incorporates manipulability-aware preferences for robustness near singularities. Comprehensive experiments in simulation and real-world environments show that M4Diffuser achieves 7 to 56 percent higher success rates and reduces collisions by 3 to 31 percent over baselines. Our approach demonstrates robust performance for smooth whole-body coordination, and strong generalization to unseen tasks, paving the way for reliable mobile manipulation in unstructured environments. Details of the demo and supplemental material are available on our project website https://sites.google.com/view/m4diffuser.
- Abstract(参考訳): 移動体操作には移動体とロボットアームの協調制御が必要である。
既存の単一ビューアプローチは、限られた視野、探索、一般化能力のために、構造化されていない環境で失敗することが多い。
さらに、古典的なコントローラーは、安定ではあるが、特異点に近い効率と操作性に苦しむ。
これらの課題に対処するため,モバイル操作のためのマルチビュー拡散ポリシーと,新しいReduceed and Manipulability-aware QP(ReM-QP)コントローラを統合するハイブリッドフレームワークであるM4Diffuserを提案する。
拡散政策は、プロプリオセプティブな状態と補完的なカメラの視点を、近接したオブジェクト詳細とグローバルなシーンコンテキストの両方で活用し、世界フレームにおけるタスク関連エンドエフェクタ目標を生成する。
これらの高レベルなゴールはReM-QPコントローラによって実行され、計算効率のスラック変数を排除し、特異点に近い堅牢性に対するマニピュラビリティに配慮した選好を組み込む。
シミュレーションと実世界の環境に関する総合的な実験により、M4Diffuserは7~66%の成功率を獲得し、ベースライン上での衝突を3~31%削減した。
提案手法は,スムーズな全体コーディネートのための堅牢な性能を示し,非構造化環境におけるモバイル操作の信頼性向上に寄与する。
デモと補足資料の詳細は、プロジェクトのWebサイトhttps://sites.google.com/view/m4diffuser.comで確認できます。
関連論文リスト
- Grasp-MPC: Closed-Loop Visual Grasping via Value-Guided Model Predictive Control [24.588260602136867]
乱雑な環境下での新規物体に対する閉ループ視覚に基づく把握ポリシーであるGrasp-MPCを提案する。
Grasp-MPCは200万のグリップ軌跡からなる大規模な合成データセットから視覚観測に基づいて訓練された値関数を組み込んでいる。
FetchBench上でのGrasp-MPCと,各種環境における実環境設定の評価を行った。
論文 参考訳(メタデータ) (2025-09-07T20:28:21Z) - OWMM-Agent: Open World Mobile Manipulation With Multi-modal Agentic Data Synthesis [70.39500621448383]
オープンワールドのモバイル操作タスクは、オープンエンドの命令や環境への一般化が必要なため、依然として課題である。
本稿では,多視点のシーンフレームとエージェント状態を維持した新しいマルチモーダルエージェントアーキテクチャを提案する。
我々は,グローバルなシーン理解,ロボットの状態追跡,マルチモーダルアクション生成を統一モデルで実現した,モバイルマニピュレータのための基礎モデルであるOWMM-VLMについて紹介する。
論文 参考訳(メタデータ) (2025-06-04T17:57:44Z) - Unlocking Smarter Device Control: Foresighted Planning with a World Model-Driven Code Execution Approach [82.27842884709378]
本研究では,自然言語理解と構造化推論を優先し,エージェントの環境に対するグローバルな理解を高める枠組みを提案する。
本手法は,従来の手法,特にタスク成功率の44.4%向上を達成している。
論文 参考訳(メタデータ) (2025-05-22T09:08:47Z) - Meta-Control: Automatic Model-based Control Synthesis for Heterogeneous Robot Skills [10.43221469116584]
本稿では,特定のタスクに合わせて,カスタマイズされた状態表現と制御戦略を作成するメタコントロルを提案する。
私たちの中核的な洞察は、人間の専門家が制御システムの設計に使用する思考プロセスを自動化するために、メタ制御システムを構築することができるということです。
論文 参考訳(メタデータ) (2024-05-18T19:58:44Z) - Learning Model Predictive Controllers with Real-Time Attention for
Real-World Navigation [34.86856430694435]
本稿では,模擬学習の利点とシステム制約の頑健な処理を併用した,暗黙的な制御ポリシーの新たなクラスを提案する。
Performer-MPCと呼ばれる我々の手法は、Performerが提供する視覚コンテキストの埋め込みによってパラメータ化された学習コスト関数を使用する。
標準的なMPCポリシーと比較して、Performer-MPCは、乱雑な環境で到達した目標を40%以上達成し、人間の周りを移動する際の社会的指標を65%以上向上させる。
論文 参考訳(メタデータ) (2022-09-22T04:57:58Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z) - Articulated Object Interaction in Unknown Scenes with Whole-Body Mobile
Manipulation [16.79185733369416]
未知の環境下における大型関節オブジェクトとの自律的相互作用のための2段階アーキテクチャを提案する。
第1段階は学習モデルを用いて、RGB-D入力から対象物の調音モデルを推定し、相互作用のための状態の動作条件列を予測する。
第2段階は、生成した運動計画に沿ってオブジェクトを操作する全身運動制御装置からなる。
論文 参考訳(メタデータ) (2021-03-18T21:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。