論文の概要: Visuo-Tactile World Models
- arxiv url: http://arxiv.org/abs/2602.06001v1
- Date: Thu, 05 Feb 2026 18:46:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.207962
- Title: Visuo-Tactile World Models
- Title(参考訳): Visuo-Tactile World Models
- Authors: Carolina Higuera, Sergio Arnaud, Byron Boots, Mustafa Mukadam, Francois Robert Hogan, Franziska Meier,
- Abstract要約: Visuo-Tactile World Models (VT-WM) はタッチ推論によって接触の物理を捉える。
VT-WMは一連のコンタクトリッチな操作タスクを訓練し、想像力の物理的忠実さを向上させる。
実験により、接触力学の接地も計画に変換されることが示された。
- 参考スコア(独自算出の注目度): 21.898813969700765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce multi-task Visuo-Tactile World Models (VT-WM), which capture the physics of contact through touch reasoning. By complementing vision with tactile sensing, VT-WM better understands robot-object interactions in contact-rich tasks, avoiding common failure modes of vision-only models under occlusion or ambiguous contact states, such as objects disappearing, teleporting, or moving in ways that violate basic physics. Trained across a set of contact-rich manipulation tasks, VT-WM improves physical fidelity in imagination, achieving 33% better performance at maintaining object permanence and 29% better compliance with the laws of motion in autoregressive rollouts. Moreover, experiments show that grounding in contact dynamics also translates to planning. In zero-shot real-robot experiments, VT-WM achieves up to 35% higher success rates, with the largest gains in multi-step, contact-rich tasks. Finally, VT-WM demonstrates significant downstream versatility, effectively adapting its learned contact dynamics to a novel task and achieving reliable planning success with only a limited set of demonstrations.
- Abstract(参考訳): 触覚推論により接触の物理を捉えるマルチタスク型触覚世界モデル(VT-WM)を提案する。
触覚センサーで視覚を補完することにより、VT-WMは、接触に富むタスクにおけるロボットと物体の相互作用をよりよく理解し、基本物理学に違反する物体の消失、テレポート、移動など、隠蔽状態やあいまいな接触状態下での視覚のみのモデルの共通の障害モードを避ける。
一連のコンタクトリッチな操作タスクで訓練されたVT-WMは、想像力の物理的忠実さを改善し、オブジェクトの永続性を維持する上で33%の優れたパフォーマンスを実現し、自動回帰ロールアウトにおける動きの法則に対する29%のより良いコンプライアンスを実現した。
さらに、接触力学の接地も計画に反映していることを示す実験も行われた。
ゼロショットの実ロボット実験では、VT-WMは最大で35%高い成功率を達成し、マルチステップでコンタクトリッチなタスクで最大の成果を上げている。
最後に、VT-WMは、学習した接触ダイナミクスを新しいタスクに効果的に適応させ、限られたデモセットで信頼性の高い計画成功を達成するために、下流の多目的性を示す。
関連論文リスト
- OmniVTA: Visuo-Tactile World Modeling for Contact-Rich Robotic Manipulation [60.609604885961716]
textbfOmniViTacは,16ドルのタスクと100ドル以上のオブジェクトからなる21,000ドル以上のトラジェクトリからなる大規模ビズオタクティルアクションデータセットである。
我々は4つの密結合モジュールを統合する世界モデルベースのビジュオ触覚操作フレームワークである textbf OmniVTA を提案する。
論文 参考訳(メタデータ) (2026-03-19T17:52:42Z) - CRAFT: Adapting VLA Models to Contact-rich Manipulation via Force-aware Curriculum Fine-tuning [46.57805525532354]
Vision-Language-Actionモデルは一般的な命令を実行できるが、コンタクトリッチな操作タスクに苦労する。
CRAFTは、初期訓練中に視覚と言語埋め込みを調節する力覚カリキュラムの微調整フレームワークである。
CRAFTはタスクの成功を継続的に改善し、未確認のオブジェクトや新しいタスクのバリエーションに一般化し、多様なVLAアーキテクチャに効果的に適応することを示す。
論文 参考訳(メタデータ) (2026-02-13T02:28:21Z) - UniVTAC: A Unified Simulation Platform for Visuo-Tactile Manipulation Data Generation, Learning, and Benchmarking [47.900334665380115]
シミュレーションベースのビジュオ触覚データプラットフォームUniVTACを提案する。
大規模なシミュレーション合成データに基づいて訓練されたビジュオ触覚エンコーダであるUniVTACエンコーダを紹介する。
代表的な8つのビジュオ触覚操作タスクからなるUniVTACベンチマークを提案する。
論文 参考訳(メタデータ) (2026-02-10T18:57:00Z) - Learning to Feel the Future: DreamTacVLA for Contact-Rich Manipulation [14.221542785249524]
本稿では,VLAモデルを接点物理学の基盤として,未来感を学習するフレームワークであるDreamTacVLAを紹介する。
我々のモデルは、高解像度の触覚画像がマイクロビジョン入力として機能する階層的認識方式を採用している。
より詳細な接触力学の理解を深めるために,将来的な触覚信号を予測する触覚世界モデルを用いてシステムを微調整する。
論文 参考訳(メタデータ) (2025-12-29T21:06:33Z) - VLA-Touch: Enhancing Vision-Language-Action Models with Dual-Level Tactile Feedback [21.08021535027628]
VLA-Touchは、触覚センサを用いた汎用ロボットポリシーを強化するアプローチである。
提案手法では,(1)高レベルタスク計画のためのセマンティックな触覚フィードバックを提供する事前学習された触覚言語モデルを利用するパイプラインと,(2)コンタクトリッチな操作のための触覚信号を用いたVLA生成動作を洗練する拡散型コントローラの2つを導入している。
論文 参考訳(メタデータ) (2025-07-23T07:54:10Z) - ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation [62.58034332427291]
ForceVLAは、新しいエンドツーエンド操作フレームワークである。
外部力センシングは、VLAシステム内の第一級のモダリティとして扱う。
論文 参考訳(メタデータ) (2025-05-28T09:24:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。