論文の概要: ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation
- arxiv url: http://arxiv.org/abs/2505.22159v1
- Date: Wed, 28 May 2025 09:24:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.534191
- Title: ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation
- Title(参考訳): ForceVLA: コンタクトリッチマニピュレーションのための力覚MoEを用いたVLAモデルの強化
- Authors: Jiawen Yu, Hairuo Liu, Qiaojun Yu, Jieji Ren, Ce Hao, Haitong Ding, Guangyu Huang, Guofan Huang, Yan Song, Panpan Cai, Cewu Lu, Wenqiang Zhang,
- Abstract要約: VLA(Vision-Language-Action)モデルは、事前訓練された視覚表現と言語表現を活用することで、高度な汎用ロボット操作を実現する。
ForceVLAは、外力センシングをVLAシステム内の第一級のモダリティとして扱う。
提案手法は,器用な操作のためのマルチモーダル統合の重要性を強調し,身体知能ロボット制御のための新しいベンチマークを設定する。
- 参考スコア(独自算出の注目度): 54.28635581240747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models have advanced general-purpose robotic manipulation by leveraging pretrained visual and linguistic representations. However, they struggle with contact-rich tasks that require fine-grained control involving force, especially under visual occlusion or dynamic uncertainty. To address these limitations, we propose \textbf{ForceVLA}, a novel end-to-end manipulation framework that treats external force sensing as a first-class modality within VLA systems. ForceVLA introduces \textbf{FVLMoE}, a force-aware Mixture-of-Experts fusion module that dynamically integrates pretrained visual-language embeddings with real-time 6-axis force feedback during action decoding. This enables context-aware routing across modality-specific experts, enhancing the robot's ability to adapt to subtle contact dynamics. We also introduce \textbf{ForceVLA-Data}, a new dataset comprising synchronized vision, proprioception, and force-torque signals across five contact-rich manipulation tasks. ForceVLA improves average task success by 23.2\% over strong $\pi_0$-based baselines, achieving up to 80\% success in tasks such as plug insertion. Our approach highlights the importance of multimodal integration for dexterous manipulation and sets a new benchmark for physically intelligent robotic control. Code and data will be released at https://sites.google.com/view/forcevla2025.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、事前訓練された視覚表現と言語表現を活用することで、高度な汎用ロボット操作を実現する。
しかし、それらは、特に視覚的閉塞や動的不確実性の下で、力を含むきめ細かい制御を必要とする接触に富んだタスクに苦しむ。
これらの制約に対処するために,外力センシングをVLAシステム内の一級モダリティとして扱う新しいエンドツーエンド操作フレームワークである \textbf{ForceVLA} を提案する。
ForceVLAは、トレーニング済みの視覚言語埋め込みとリアルタイム6軸の力フィードバックを動的に統合する、力認識型Mixture-of-Experts融合モジュールである。
これにより、ロボットが微妙な接触力学に適応する能力を高めることができる。
また,5つのコンタクトリッチな操作タスクにまたがる同期視覚,プロプレセプション,およびフォーストルク信号からなる新しいデータセットである \textbf{ForceVLA-Data} も導入した。
ForceVLAは、$\pi_0$ベースのベースラインよりも平均的なタスク成功率を23.2\%向上させ、プラグ挿入のようなタスクで最大80%の成功を達成する。
提案手法は,器用な操作のためのマルチモーダル統合の重要性を強調し,身体知能ロボット制御のための新しいベンチマークを設定する。
コードとデータはhttps://sites.google.com/view/forcevla2025で公開される。
関連論文リスト
- ForceGrip: Reference-Free Curriculum Learning for Realistic Grip Force Control in VR Hand Manipulation [0.10995326465245926]
本稿では,現実的な手操作動作を合成する深層学習エージェントであるForceGripを紹介する。
我々は、指の位置決め、意図適応、動的安定化を含む3段階のカリキュラム学習フレームワークを採用する。
以上の結果から,ForceGripの出力制御性と信頼性は最先端の手法に比べて優れていた。
論文 参考訳(メタデータ) (2025-03-11T05:39:07Z) - ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model [21.844214660424175]
ChatVLAは、初期制御熟達後のマルチモーダルデータを段階的に統合するフェーズアライメントトレーニングと、タスク干渉を最小限に抑えるMixture-of-Expertsアーキテクチャを特徴とする、新しいフレームワークである。
ChatVLAは、視覚的問合せデータセット上での競合性能を示し、マルチモーダル理解ベンチマークにおける最先端のビジョン言語アクション(VLA)メソッドを大幅に上回っている。
本研究は,ロバストなマルチモーダル理解と効果的なロボット制御を実現するための統合フレームワークの可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-02-20T10:16:18Z) - TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies [95.30717188630432]
VLAモデルの行動予測のための時空間認識を容易にするために,視覚的トレースプロンプトを導入する。
我々は,これまでに収集した150Kロボット操作トラジェクトリのデータセットに基づいてOpenVLAを微調整し,新しいTraceVLAモデルを開発した。
4B Phi-3-Vision に基づくコンパクトな VLA モデルを提案する。
論文 参考訳(メタデータ) (2024-12-13T18:40:51Z) - OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。
OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。
モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文 参考訳(メタデータ) (2024-06-13T15:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。