論文の概要: FD-VLA: Force-Distilled Vision-Language-Action Model for Contact-Rich Manipulation
- arxiv url: http://arxiv.org/abs/2602.02142v1
- Date: Mon, 02 Feb 2026 14:19:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.201149
- Title: FD-VLA: Force-Distilled Vision-Language-Action Model for Contact-Rich Manipulation
- Title(参考訳): FD-VLA:接触リッチマニピュレーションのための力蒸留型ビジョンランゲージ・アクションモデル
- Authors: Ruiteng Zhao, Wenshuo Wang, Yicheng Ma, Xiaocong Li, Francis E. H. Tay, Marcelo H. Ang, Haiyue Zhu,
- Abstract要約: 本稿では,力覚をコンタクトリッチな操作に統合する新しいフレームワークであるForce-Distilled VLAを提案する。
当社のアプローチのコアは、学習可能なクエリトークンをマッピングすることで、フォースを蒸留するFDM(Force Distillation Module)である。
推理中、この蒸留された力トークンは、予め訓練されたVLMに注入され、力を認識する推論が可能となる。
- 参考スコア(独自算出の注目度): 8.726448573057725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Force sensing is a crucial modality for Vision-Language-Action (VLA) frameworks, as it enables fine-grained perception and dexterous manipulation in contact-rich tasks. We present Force-Distilled VLA (FD-VLA), a novel framework that integrates force awareness into contact-rich manipulation without relying on physical force sensors. The core of our approach is a Force Distillation Module (FDM), which distills force by mapping a learnable query token, conditioned on visual observations and robot states, into a predicted force token aligned with the latent representation of actual force signals. During inference, this distilled force token is injected into the pretrained VLM, enabling force-aware reasoning while preserving the integrity of its vision-language semantics. This design provides two key benefits: first, it allows practical deployment across a wide range of robots that lack expensive or fragile force-torque sensors, thereby reducing hardware cost and complexity; second, the FDM introduces an additional force-vision-state fusion prior to the VLM, which improves cross-modal alignment and enhances perception-action robustness in contact-rich scenarios. Surprisingly, our physical experiments show that the distilled force token outperforms direct sensor force measurements as well as other baselines, which highlights the effectiveness of this force-distilled VLA approach.
- Abstract(参考訳): 力センシングは視覚・言語・アクション(VLA)フレームワークにとって重要なモダリティであり、接触に富むタスクにおいてきめ細かい知覚と巧妙な操作を可能にする。
本稿では,物理的な力センサに頼らずに,力覚をコンタクトリッチな操作に統合する新しいフレームワークであるForce-Distilled VLA(FD-VLA)を提案する。
提案手法のコアとなるFDMは,学習可能な問合せトークンを実力信号の潜在表現と一致した予測力トークンにマッピングすることで,力の蒸留を行う。
推論中、この蒸留された力トークンは、事前訓練されたVLMに注入され、その視覚言語意味論の完全性を維持しながら、力認識推論を可能にする。
第1に、FDMは、VLMに先立って追加のフォースビジョン状態融合を導入し、クロスモーダルアライメントを改善し、コンタクトリッチなシナリオにおける知覚-アクションロバスト性を高める。
驚くべきことに、我々の物理的実験により、蒸留された力トークンは直接センサ力測定や他のベースラインよりも優れており、この力蒸留VLAアプローチの有効性を強調している。
関連論文リスト
- ImplicitRDP: An End-to-End Visual-Force Diffusion Policy with Structural Slow-Fast Learning [52.86018040861575]
本稿では,単一のネットワークに視覚計画と反応力制御を統合した,一貫したエンドツーエンドの視覚力拡散政策を提案する。
本稿では,非同期な視覚と力のトークンを同時に処理するための因果的注意力を利用した構造的スローフォールストラーニングを紹介する。
コンタクトリッチタスクの実験では、ImplicitRDPは視覚のみのベースラインと階層的なベースラインの両方で著しく優れていた。
論文 参考訳(メタデータ) (2025-12-11T18:59:46Z) - Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - Feel the Force: Contact-Driven Learning from Humans [52.36160086934298]
操作中のきめ細かい力の制御は、ロボット工学における中核的な課題である。
We present FeelTheForce, a robot learning system that model human tactile behavior to learn force-sensitive control。
提案手法は,5つの力覚的操作タスクで77%の成功率を達成した,スケーラブルな人間の監督において,堅牢な低レベル力制御を実現する。
論文 参考訳(メタデータ) (2025-06-02T17:57:52Z) - ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation [62.58034332427291]
ForceVLAは、新しいエンドツーエンド操作フレームワークである。
外部力センシングは、VLAシステム内の第一級のモダリティとして扱う。
論文 参考訳(メタデータ) (2025-05-28T09:24:25Z) - ForceGrip: Reference-Free Curriculum Learning for Realistic Grip Force Control in VR Hand Manipulation [0.10995326465245926]
本稿では,現実的な手操作動作を合成する深層学習エージェントであるForceGripを紹介する。
我々は、指の位置決め、意図適応、動的安定化を含む3段階のカリキュラム学習フレームワークを採用する。
以上の結果から,ForceGripの出力制御性と信頼性は最先端の手法に比べて優れていた。
論文 参考訳(メタデータ) (2025-03-11T05:39:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。