論文の概要: MoManipVLA: Transferring Vision-language-action Models for General Mobile Manipulation
- arxiv url: http://arxiv.org/abs/2503.13446v1
- Date: Mon, 17 Mar 2025 17:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:28:58.340231
- Title: MoManipVLA: Transferring Vision-language-action Models for General Mobile Manipulation
- Title(参考訳): MoManipVLA:汎用モバイルマニピュレーションのための視覚言語アクションモデル転送
- Authors: Zhenyu Wu, Yuheng Zhou, Xiuwei Xu, Ziwei Wang, Haibin Yan,
- Abstract要約: 固定ベース操作のトレーニング済みVLAモデルをモバイル操作に転送するための,MoManipVLAという効率的なポリシー適応フレームワークを提案する。
具体的には、事前学習されたVLAモデルを用いて、高い一般化能力を持つエンドエフェクタのウェイポイントを生成する。
- 参考スコア(独自算出の注目度): 24.658673245150865
- License:
- Abstract: Mobile manipulation is the fundamental challenge for robotics to assist humans with diverse tasks and environments in everyday life. However, conventional mobile manipulation approaches often struggle to generalize across different tasks and environments because of the lack of large-scale training. In contrast, recent advances in vision-language-action (VLA) models have shown impressive generalization capabilities, but these foundation models are developed for fixed-base manipulation tasks. Therefore, we propose an efficient policy adaptation framework named MoManipVLA to transfer pre-trained VLA models of fix-base manipulation to mobile manipulation, so that high generalization ability across tasks and environments can be achieved in mobile manipulation policy. Specifically, we utilize pre-trained VLA models to generate waypoints of the end-effector with high generalization ability. We design motion planning objectives for the mobile base and the robot arm, which aim at maximizing the physical feasibility of the trajectory. Finally, we present an efficient bi-level objective optimization framework for trajectory generation, where the upper-level optimization predicts waypoints for base movement to enhance the manipulator policy space, and the lower-level optimization selects the optimal end-effector trajectory to complete the manipulation task. In this way, MoManipVLA can adjust the position of the robot base in a zero-shot manner, thus making the waypoints predicted from the fixed-base VLA models feasible. Extensive experimental results on OVMM and the real world demonstrate that MoManipVLA achieves a 4.2% higher success rate than the state-of-the-art mobile manipulation, and only requires 50 training cost for real world deployment due to the strong generalization ability in the pre-trained VLA models.
- Abstract(参考訳): モバイル操作は、ロボット工学にとって、日常のさまざまなタスクや環境を人間に支援する上で、基本的な課題である。
しかしながら、従来のモバイル操作アプローチは、大規模なトレーニングが欠如しているため、様々なタスクや環境をまたいだ一般化に苦慮することが多い。
対照的に、近年の視覚言語アクションモデル(VLA)の進歩は、目覚ましい一般化能力を示しているが、これらの基礎モデルは固定ベース操作タスクのために開発されている。
そこで本研究では,MoManipVLAという,固定ベース操作の事前訓練されたVLAモデルをモバイル操作に転送する,効率的なポリシ適応フレームワークを提案する。
具体的には、事前学習されたVLAモデルを用いて、高い一般化能力を持つエンドエフェクタのウェイポイントを生成する。
我々は移動体ベースとロボットアームの運動計画目標を設計し、軌道の物理的実現可能性の最大化を目指す。
最後に,高次最適化が基本運動のウェイポイントを予測してマニピュレータポリシー空間を強化し,低次最適化が最適エンドエフェクタトラジェクタを選択して操作タスクを完了させる,トラジェクタ生成のための効率的な2レベル目標最適化フレームワークを提案する。
このようにして、MoManipVLAはゼロショット方式でロボット基地の位置を調整でき、固定ベースVLAモデルから予測されるウェイポイントが実現可能である。
OVMMと実世界の大規模な実験結果から、MoManipVLAは最先端のモバイル操作よりも4.2%高い成功率を達成し、事前訓練されたVLAモデルの強力な一般化能力のため、実世界の展開に50のトレーニングコストしか必要としないことが示された。
関連論文リスト
- HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [54.03004125910057]
階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。
階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
論文 参考訳(メタデータ) (2025-02-08T07:50:22Z) - SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model [45.03115608632622]
空間理解はロボット操作のキーポイントです
本研究では,ロボット基盤モデルのための効果的な空間表現を探索する空間VLAを提案する。
提案したAdaptive Action Gridsは,事前学習したSpatialVLAモデルを微調整し,新しいシミュレーションと実世界のセットアップを実現するための,新しい効果的な方法を提供する。
論文 参考訳(メタデータ) (2025-01-27T07:34:33Z) - Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
私たちは世界モデルを学ぶための新しいフレームワークを紹介します。
スケーラブルで堅牢なフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation [100.25567121604382]
VLA(Vision-Language-Action)モデルは、言語誘導されたタスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を改善した。
VLM(Vision-Language-Models)に基づく新しい高度なVLAアーキテクチャを提案する。
我々のモデルはタスクパフォーマンスにおいて既存のVLAをはるかに上回るだけでなく、新しいロボットへの顕著な適応と、見えないオブジェクトや背景への一般化も示している。
論文 参考訳(メタデータ) (2024-11-29T12:06:03Z) - GRAPE: Generalizing Robot Policy via Preference Alignment [58.419992317452376]
GRAPE: 優先度アライメントによるロボット政策の一般化について述べる。
GRAPEはドメイン内および未確認操作タスクにおける成功率をそれぞれ51.79%、58.20%向上させる。
GRAPEは安全性や効率、衝突速度の37.44%、ロールアウト長さの11.15%といった様々な目標に合わせることができる。
論文 参考訳(メタデータ) (2024-11-28T18:30:10Z) - Self-Supervised Learning of Grasping Arbitrary Objects On-the-Move [8.445514342786579]
本研究では3つの完全畳み込みニューラルネットワーク(FCN)モデルを導入し,視覚入力から静的グリッププリミティブ,動的グリッププリミティブ,残留移動速度誤差を予測する。
提案手法は高い把握精度とピック・アンド・プレイス効率を実現した。
論文 参考訳(メタデータ) (2024-11-15T02:59:16Z) - Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - ManipLLM: Embodied Multimodal Large Language Model for Object-Centric
Robotic Manipulation [22.071450379253235]
MLLM(Multimodal Large Language Models)の頑健な推論機能を活用したロボット操作のための革新的なアプローチを提案する。
インジェクトアダプタの微調整により,MLLMの固有共通感覚と推論能力を保ちながら,操作能力も備えている。
シミュレータと実世界の実験は,ManipLLMの有望な性能を示している。
論文 参考訳(メタデータ) (2023-12-24T06:38:11Z) - Consolidating Kinematic Models to Promote Coordinated Mobile
Manipulations [96.03270112422514]
我々は,移動体ベース,アーム,移動体操作で操作する物体の運動学を統合する仮想キネマティックチェイン(VKC)を構築した。
移動操作タスクは、構築されたVKCの状態を変更して表現され、移動計画問題に変換することができる。
論文 参考訳(メタデータ) (2021-08-03T02:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。