論文の概要: ForceVLA2: Unleashing Hybrid Force-Position Control with Force Awareness for Contact-Rich Manipulation
- arxiv url: http://arxiv.org/abs/2603.15169v1
- Date: Mon, 16 Mar 2026 12:03:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.861918
- Title: ForceVLA2: Unleashing Hybrid Force-Position Control with Force Awareness for Contact-Rich Manipulation
- Title(参考訳): ForceVLA2: コンタクトリッチマニピュレーションのための力覚によるハイブリッド力覚制御
- Authors: Yang Li, Zhaxizhuoma, Hongru Jiang, Junjie Xia, Hongquan Zhang, Jinda Du, Yunsong Zhou, Jia Zeng, Ce Hao, Jieji Ren, Qiaojun Yu, Cewu Lu, Yu Qiao, Jiangmiao Pang,
- Abstract要約: エンドツーエンドの視覚言語アクションフレームワークであるForceVLA2は、ハイブリッドな力配置制御と明示的な力覚を備えたロボットを装備する。
学習と評価を支援するために,5つの接触豊富なタスクに1,000の軌道を含むForceVLA2-Datasetを構築した。
実験により、ForceVLA2は接触リッチな操作における成功率と信頼性を大幅に改善することが示された。
- 参考スコア(独自算出の注目度): 75.39847750457626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied intelligence for contact-rich manipulation has predominantly relied on position control, while explicit awareness and regulation of interaction forces remain under-explored, limiting stability, precision, and robustness in real-world tasks. We propose ForceVLA2, an end-to-end vision-language-action framework that equips robots with hybrid force-position control and explicit force awareness. ForceVLA2 introduces force-based prompts into the VLM expert to construct force-aware task concepts across stages, and employs a Cross-Scale Mixture-of-Experts (MoE) in the action expert to adaptively fuse these concepts with real-time interaction forces for closed-loop hybrid force-position regulation. To support learning and evaluation, we construct ForceVLA2-Dataset, containing 1,000 trajectories over 5 contact-rich tasks, including wiping, pressing, and assembling, with multi-view images, task prompts, proprioceptive state, and force signals. Extensive experiments show that ForceVLA2 substantially improves success rates and reliability in contact-rich manipulation, outperforming pi0 and pi0.5 by 48.0% and 35.0%, respectively, across the 5 tasks, and mitigating common failure modes such as arm overload and unstable contact, thereby actively advancing force-aware interactive physical intelligence in VLAs. The project page is available at https://sites.google.com/view/force-vla2/home.
- Abstract(参考訳): 接触に富んだ操作のための身体的知性は、主に位置制御に依存しており、一方、現実のタスクにおける安定性、精度、堅牢性を制限し、明示的な認識と相互作用力の規制は未探索のままである。
本稿では,ロボットに複合力配置制御と明示的な力覚を与える,エンドツーエンドの視覚言語アクションフレームワークであるForceVLA2を提案する。
ForceVLA2は、VLMの専門家に力に基づくプロンプトを導入し、段差で力を認識するタスクの概念を構築し、アクションエキスパートにクロススケール・ミックス・オブ・エクササイズ(MoE)を使用して、これらの概念をクローズドループハイブリッド力配置規制のためのリアルタイム相互作用力と適応的に融合させる。
学習と評価を支援するために, ワイピング, 押圧, 組立を含む5つの接点の多いタスクに1,000のトラジェクトリを含むForceVLA2-Datasetを構築し, 多視点画像, タスクプロンプト, 受容状態, 力信号を用いた。
大規模な実験により、ForceVLA2は、接触リッチな操作における成功率と信頼性を大幅に向上し、それぞれ5つのタスクでpi0とpi0.5を48.0%、35.0%で上回り、腕の過負荷や不安定な接触などの一般的な障害モードを緩和し、VLAにおける力覚対話的物理的知能を積極的に向上することを示した。
プロジェクトのページはhttps://sites.google.com/view/force-vla2/home.comで公開されている。
関連論文リスト
- FD-VLA: Force-Distilled Vision-Language-Action Model for Contact-Rich Manipulation [8.726448573057725]
本稿では,力覚をコンタクトリッチな操作に統合する新しいフレームワークであるForce-Distilled VLAを提案する。
当社のアプローチのコアは、学習可能なクエリトークンをマッピングすることで、フォースを蒸留するFDM(Force Distillation Module)である。
推理中、この蒸留された力トークンは、予め訓練されたVLMに注入され、力を認識する推論が可能となる。
論文 参考訳(メタデータ) (2026-02-02T14:19:46Z) - ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation [62.58034332427291]
ForceVLAは、新しいエンドツーエンド操作フレームワークである。
外部力センシングは、VLAシステム内の第一級のモダリティとして扱う。
論文 参考訳(メタデータ) (2025-05-28T09:24:25Z) - ForceGrip: Reference-Free Curriculum Learning for Realistic Grip Force Control in VR Hand Manipulation [0.10995326465245926]
本稿では,現実的な手操作動作を合成する深層学習エージェントであるForceGripを紹介する。
我々は、指の位置決め、意図適応、動的安定化を含む3段階のカリキュラム学習フレームワークを採用する。
以上の結果から,ForceGripの出力制御性と信頼性は最先端の手法に比べて優れていた。
論文 参考訳(メタデータ) (2025-03-11T05:39:07Z) - Reactive Diffusion Policy: Slow-Fast Visual-Tactile Policy Learning for Contact-Rich Manipulation [58.95799126311524]
人間は視覚と触覚を使って、外的変化に対する迅速な応答や接触力の適応制御のような非常に反応性の高い能力で、コンタクトリッチなタスクを達成できる。
既存の視覚模倣学習アプローチは、複雑な振る舞いをモデル化するためにアクションチャンキングに依存している。
本稿では,Augmented Realityを通じてリアルタイム触覚フィードバックを提供する,低コスト遠隔操作システムであるTactARを紹介する。
論文 参考訳(メタデータ) (2025-03-04T18:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。