論文の概要: Learning to Feel the Future: DreamTacVLA for Contact-Rich Manipulation
- arxiv url: http://arxiv.org/abs/2512.23864v1
- Date: Mon, 29 Dec 2025 21:06:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.216728
- Title: Learning to Feel the Future: DreamTacVLA for Contact-Rich Manipulation
- Title(参考訳): 未来を味わうための学習:DreamTacVLA for Contact-Rich Manipulation
- Authors: Guo Ye, Zexi Zhang, Xu Zhao, Shang Wu, Haoran Lu, Shihan Lu, Han Liu,
- Abstract要約: 本稿では,VLAモデルを接点物理学の基盤として,未来感を学習するフレームワークであるDreamTacVLAを紹介する。
我々のモデルは、高解像度の触覚画像がマイクロビジョン入力として機能する階層的認識方式を採用している。
より詳細な接触力学の理解を深めるために,将来的な触覚信号を予測する触覚世界モデルを用いてシステムを微調整する。
- 参考スコア(独自算出の注目度): 14.221542785249524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models have shown remarkable generalization by mapping web-scale knowledge to robotic control, yet they remain blind to physical contact. Consequently, they struggle with contact-rich manipulation tasks that require reasoning about force, texture, and slip. While some approaches incorporate low-dimensional tactile signals, they fail to capture the high-resolution dynamics essential for such interactions. To address this limitation, we introduce DreamTacVLA, a framework that grounds VLA models in contact physics by learning to feel the future. Our model adopts a hierarchical perception scheme in which high-resolution tactile images serve as micro-vision inputs coupled with wrist-camera local vision and third-person macro vision. To reconcile these multi-scale sensory streams, we first train a unified policy with a Hierarchical Spatial Alignment (HSA) loss that aligns tactile tokens with their spatial counterparts in the wrist and third-person views. To further deepen the model's understanding of fine-grained contact dynamics, we finetune the system with a tactile world model that predicts future tactile signals. To mitigate tactile data scarcity and the wear-prone nature of tactile sensors, we construct a hybrid large-scale dataset sourced from both high-fidelity digital twin and real-world experiments. By anticipating upcoming tactile states, DreamTacVLA acquires a rich model of contact physics and conditions its actions on both real observations and imagined consequences. Across contact-rich manipulation tasks, it outperforms state-of-the-art VLA baselines, achieving up to 95% success, highlighting the importance of understanding physical contact for robust, touch-aware robotic agents.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、Webスケールの知識をロボット制御にマッピングすることで、目覚ましい一般化を見せている。
その結果、力、テクスチャ、滑りに関する推論を必要とする、接触に富んだ操作タスクに苦労する。
いくつかのアプローチでは、低次元の触覚信号が組み込まれているが、そのような相互作用に不可欠な高分解能のダイナミクスを捉えられなかった。
この制限に対処するために,コンタクト物理におけるVLAモデルの基礎となるフレームワークであるDreamTacVLAを紹介した。
このモデルでは,高解像度触覚画像がマイクロビジョン入力として機能し,手首カメラのローカルビジョンと3人目のマクロビジョンを併用する階層的認識方式を採用している。
これらのマルチスケールの感覚ストリームを整合させるために、まず階層的空間アライメント(HSA)の損失で統一されたポリシーをトレーニングし、触覚トークンを手首と3人目の視点でそれらの空間トークンと整合させる。
より詳細な接触力学の理解を深めるために,将来的な触覚信号を予測する触覚世界モデルを用いてシステムを微調整する。
触覚データ不足と触覚センサの摩耗特性を緩和するため,高忠実度ディジタルツインと実世界の両方の実験から得られたハイブリッドな大規模データセットを構築した。
今後の触覚状態を予測することで、DreamTacVLAはコンタクト物理のリッチなモデルを取得し、実際の観測と想像結果の両方にそのアクションを条件付ける。
接触に富んだ操作タスク全体では、最先端のVLAベースラインを上回り、95%の成功を達成し、堅牢でタッチ対応のロボットエージェントに対する物理的な接触を理解することの重要性を強調している。
関連論文リスト
- VLA-Touch: Enhancing Vision-Language-Action Models with Dual-Level Tactile Feedback [21.08021535027628]
VLA-Touchは、触覚センサを用いた汎用ロボットポリシーを強化するアプローチである。
提案手法では,(1)高レベルタスク計画のためのセマンティックな触覚フィードバックを提供する事前学習された触覚言語モデルを利用するパイプラインと,(2)コンタクトリッチな操作のための触覚信号を用いたVLA生成動作を洗練する拡散型コントローラの2つを導入している。
論文 参考訳(メタデータ) (2025-07-23T07:54:10Z) - Tactile-VLA: Unlocking Vision-Language-Action Model's Physical Knowledge for Tactile Generalization [14.189391793395384]
本稿では,視覚,言語,行動,触覚を深く融合させる新しいフレームワークであるTactile-VLAを紹介する。
実験では、Tactile-VLAの有効性と一般化性を3つの重要な側面で示している。
論文 参考訳(メタデータ) (2025-07-12T06:44:37Z) - ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation [62.58034332427291]
ForceVLAは、新しいエンドツーエンド操作フレームワークである。
外部力センシングは、VLAシステム内の第一級のモダリティとして扱う。
論文 参考訳(メタデータ) (2025-05-28T09:24:25Z) - Controllable Visual-Tactile Synthesis [28.03469909285511]
一つのスケッチから視覚と触覚の両方の出力を合成する条件生成モデルを開発した。
次に,電気接着型触覚デバイスに高品質な視覚・触覚出力を描画するパイプラインを導入する。
論文 参考訳(メタデータ) (2023-05-04T17:59:51Z) - Dynamic Modeling of Hand-Object Interactions via Tactile Sensing [133.52375730875696]
本研究では,高分解能な触覚グローブを用いて,多種多様な物体に対して4種類のインタラクティブな動作を行う。
我々は,クロスモーダル学習フレームワーク上にモデルを構築し,視覚処理パイプラインを用いてラベルを生成し,触覚モデルを監督する。
この研究は、高密度触覚センシングによる手動物体相互作用における動的モデリングの一歩を踏み出す。
論文 参考訳(メタデータ) (2021-09-09T16:04:14Z) - Elastic Tactile Simulation Towards Tactile-Visual Perception [58.44106915440858]
触覚シミュレーションのための粒子の弾性相互作用(EIP)を提案する。
EIPは、触覚センサを協調粒子群としてモデル化し、接触時の粒子の変形を制御するために弾性特性を適用した。
さらに,触覚データと視覚画像間の情報融合を可能にする触覚知覚ネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-11T03:49:59Z) - Learning Intuitive Physics with Multimodal Generative Models [24.342994226226786]
本稿では,視覚と触覚のフィードバックを融合させ,動的シーンにおける物体の動きを予測する枠組みを提案する。
我々は、接触面の高解像度マルチモーダルセンシングを提供する新しいSee-Through-your-Skin(STS)センサを使用します。
物体の静止状態を所定の初期条件から予測するシミュレーションおよび実世界の実験を通じて検証する。
論文 参考訳(メタデータ) (2021-01-12T12:55:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。