論文の概要: GenerativeMPC: VLM-RAG-guided Whole-Body MPC with Virtual Impedance for Bimanual Mobile Manipulation
- arxiv url: http://arxiv.org/abs/2604.19522v1
- Date: Tue, 21 Apr 2026 14:44:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.817899
- Title: GenerativeMPC: VLM-RAG-guided Whole-Body MPC with Virtual Impedance for Bimanual Mobile Manipulation
- Title(参考訳): VLM-RAG-Guided Whole-Body MPC with Virtual Impedance for Bimanual Mobile Manipulation
- Authors: Marcelino Julio Fernando, Miguel Altamirano Cabrera, Jeffrin Sam, Yara Mahmoud, Konstantin Gubernatorov, Dzmitry Tsetserukou,
- Abstract要約: 双方向のモバイル操作は、ハイレベルなセマンティック推論と安全で準拠した物理的相互作用のシームレスな統合を必要とする。
本稿では,双方向移動マニピュレータの物理的制御パラメータによる意味的シーン理解を橋渡しする階層型サイバー物理フレームワークであるGenerativeMPCを提案する。
- 参考スコア(独自算出の注目度): 2.061143628317803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bimanual mobile manipulation requires a seamless integration between high-level semantic reasoning and safe, compliant physical interaction - a challenge that end-to-end models approach opaquely and classical controllers lack the context to address. This paper presents GenerativeMPC, a hierarchical cyber-physical framework that explicitly bridges semantic scene understanding with physical control parameters for bimanual mobile manipulators. The system utilizes a Vision-Language Model with Retrieval-Augmented Generation (VLM-RAG) to translate visual and linguistic context into grounded control constraints, specifically outputting dynamic velocity limits and safety margins for a Whole-Body Model Predictive Controller (MPC). Simultaneously, the VLM-RAG module modulates virtual stiffness and damping gains for a unified impedance-admittance controller, enabling context-aware compliance during human-robot interaction. Our framework leverages an experience-driven vector database to ensure consistent parameter grounding without retraining. Experimental results in MuJoCo, IsaacSim, and on a physical bimanual platform confirm a 60% speed reduction near humans and safe, socially-aware navigation and manipulation through semantic-to-physical parameter grounding. This work advances the field of human-centric cybernetics by grounding large-scale cognitive models into predictable, high-frequency physical control loops.
- Abstract(参考訳): 双方向のモバイル操作には、高レベルのセマンティック推論と安全で準拠した物理的インタラクションのシームレスな統合が必要です。
本稿では,双方向移動マニピュレータの物理的制御パラメータによる意味的シーン理解を明示的に橋渡しする階層型サイバー物理フレームワークであるGenerativeMPCを提案する。
このシステムは、VLM-RAG(Vision-Language Model with Retrieval-Augmented Generation)を使用して、視覚的および言語的コンテキストを基底制御制約に変換する。
同時に、VLM-RAGモジュールは、仮想剛性と減衰ゲインを統一インピーダンス調整コントローラに変調し、人間とロボットの相互作用中にコンテキスト対応のコンプライアンスを可能にする。
我々のフレームワークは、経験駆動ベクターデータベースを利用して、再トレーニングせずに一貫したパラメータグラウンドを確保する。
MuJoCo、IsaacSim、および物理的バイマニュアルプラットフォームによる実験結果は、人間の近くで60%の速度低下を確認し、セマンティック・ツー・物理パラメータの接地を通じて安全で社会的に認識されたナビゲーションと操作を行う。
この研究は、大規模認知モデルを予測可能で高周波な物理制御ループに基礎づけることで、人間中心のサイバネティクスの分野を前進させる。
関連論文リスト
- HybridMimic: Hybrid RL-Centroidal Control for Humanoid Motion Mimicking [3.446278503007937]
HybridMimicは、学習ポリシーがセントロイドモデルベースのコントローラを動的に変調するフレームワークである。
最先端のRLベースラインと比較して平均ベース位置追跡誤差を13%削減する。
論文 参考訳(メタデータ) (2026-03-06T17:58:02Z) - PMG: Parameterized Motion Generator for Human-like Locomotion Control [14.637220434597168]
我々は,人間のような動きを1つの統合システムで生成するリアルタイムモーションジェネレータを開発した。
一つの統合システムにおいて、PMGは人間のような自然な動きを生じさせ、高次元の制御入力に正確に応答することを示す。
これらの結果は、自然かつ展開可能なヒューマノイド制御への実践的で実験的に検証された経路を確立する。
論文 参考訳(メタデータ) (2026-02-13T06:38:04Z) - HumanoidVLM: Vision-Language-Guided Impedance Control for Contact-Rich Humanoid Manipulation [2.460614761319643]
本稿では,Unitree G1ヒューマノイドが,エゴセントリックなRGB画像から直接タスク適合インピーダンスパラメータとグリップ構成を選択できるようにする,視覚言語による検索フレームワークであるHumanoidVLMを紹介する。
我々は14の視覚的シナリオでHumanoidVLMを評価し,93%の精度で検索を行った。
論文 参考訳(メタデータ) (2026-01-21T11:04:19Z) - mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs [5.109732854501585]
そこで我々は,事前学習したインターネットスケールのビデオモデルと,その潜在表現に条件付けされたフローマッチングに基づくアクションデコーダを組み合わせた,新しいビデオ・アクション・モデル(VAM)を提案する。
提案手法は,シミュレーションおよび実世界のロボット操作タスクにおける最先端性能を実現し,サンプル効率を10倍,収束速度を2倍向上させる。
論文 参考訳(メタデータ) (2025-12-17T18:47:31Z) - Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - MetAdv: A Unified and Interactive Adversarial Testing Platform for Autonomous Driving [85.04826012938642]
MetAdvは、現実的でダイナミックでインタラクティブな評価を可能にする、新しい対向テストプラットフォームである。
フレキシブルな3D車両モデリングと、シミュレートされた環境と物理的環境のシームレスな遷移をサポートする。
生理的信号のリアルタイムキャプチャとドライバからの行動フィードバックを可能にする。
論文 参考訳(メタデータ) (2025-08-04T03:07:54Z) - TLControl: Trajectory and Language Control for Human Motion Synthesis [68.09806223962323]
本稿では,人間のリアルな動き合成のための新しい手法であるTLControlを提案する。
低レベルのTrajectoryと高レベルのLanguage semanticsコントロールが組み込まれている。
インタラクティブで高品質なアニメーション生成には実用的である。
論文 参考訳(メタデータ) (2023-11-28T18:54:16Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。