論文の概要: OmniVTA: Visuo-Tactile World Modeling for Contact-Rich Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2603.19201v1
- Date: Thu, 19 Mar 2026 17:52:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:57.001126
- Title: OmniVTA: Visuo-Tactile World Modeling for Contact-Rich Robotic Manipulation
- Title(参考訳): OmniVTA:コンタクトリッチロボットマニピュレーションのための視覚触覚世界モデリング
- Authors: Yuhang Zheng, Songen Gu, Weize Li, Yupeng Zheng, Yujie Zang, Shuai Tian, Xiang Li, Ruihai Wu, Ce Hao, Chen Gao, Si Liu, Haoran Li, Yilun Chen, Shuicheng Yan, Wenchao Ding,
- Abstract要約: textbfOmniViTacは,16ドルのタスクと100ドル以上のオブジェクトからなる21,000ドル以上のトラジェクトリからなる大規模ビズオタクティルアクションデータセットである。
我々は4つの密結合モジュールを統合する世界モデルベースのビジュオ触覚操作フレームワークである textbf OmniVTA を提案する。
- 参考スコア(独自算出の注目度): 60.609604885961716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contact-rich manipulation tasks, such as wiping and assembly, require accurate perception of contact forces, friction changes, and state transitions that cannot be reliably inferred from vision alone. Despite growing interest in visuo-tactile manipulation, progress is constrained by two persistent limitations: existing datasets are small in scale and narrow in task coverage, and current methods treat tactile signals as passive observations rather than using them to model contact dynamics or enable closed-loop control explicitly. In this paper, we present \textbf{OmniViTac}, a large-scale visuo-tactile-action dataset comprising $21{,}000+$ trajectories across $86$ tasks and $100+$ objects, organized into six physics-grounded interaction patterns. Building on this dataset, we propose \textbf{OmniVTA}, a world-model-based visuo-tactile manipulation framework that integrates four tightly coupled modules: a self-supervised tactile encoder, a two-stream visuo-tactile world model for predicting short-horizon contact evolution, a contact-aware fusion policy for action generation, and a 60Hz reflexive controller that corrects deviations between predicted and observed tactile signals in a closed loop. Real-robot experiments across all six interaction categories show that OmniVTA outperforms existing methods and generalizes well to unseen objects and geometric configurations, confirming the value of combining predictive contact modeling with high-frequency tactile feedback for contact-rich manipulation. All data, models, and code will be made publicly available on the project website at https://mrsecant.github.io/OmniVTA.
- Abstract(参考訳): ワイピングや組立のようなコンタクトリッチな操作タスクは、接触力、摩擦の変化、そして視覚のみから確実に推測できない状態遷移の正確な認識を必要とする。
既存のデータセットは規模が小さく、タスクカバレッジも狭く、現在の方法では、接触ダイナミクスをモデル化したり、クローズドループコントロールを明示的に可能にしたりするのではなく、触覚信号を受動的観察として扱う。
本稿では,大規模ビズータクティル・アクション・データセットであるtextbf{OmniViTac}について述べる。
本データセットに基づいて, 自己教師型触覚エンコーダ, 短軸接触進化を予測する2ストリーム型触覚世界モデル, 行動生成のための接触認識融合ポリシー, および, 予測された触覚信号と観測された触覚信号の偏差を補正する60Hz反射性コントローラの4つの密結合モジュールを統合した世界モデルベースの触覚操作フレームワークである \textbf{OmniVTA} を提案する。
OmniVTAは既存の手法より優れており、未知の物体や幾何学的構成によく対応し、予測的接触モデリングと高周波触覚フィードバックを組み合わせて接触リッチな操作を行う価値を確認している。
すべてのデータ、モデル、コードはプロジェクトのWebサイトでhttps://mrsecant.github.io/OmniVTAで公開されます。
関連論文リスト
- TacVLA: Contact-Aware Tactile Fusion for Robust Vision-Language-Action Manipulation [27.000763540977506]
VLA(Vision-Language-Action)モデルは、ロボット操作において大きな優位性を示している。
本稿では,触覚モーダルを変換器のポリシーに組み込んだ微調整VLAモデルTacVLAを提案する。
本稿では,接触検出時にのみ触覚トークンを選択的に活性化する接触認識ゲーティング機構を提案する。
論文 参考訳(メタデータ) (2026-03-13T05:20:41Z) - Learning to Feel the Future: DreamTacVLA for Contact-Rich Manipulation [14.221542785249524]
本稿では,VLAモデルを接点物理学の基盤として,未来感を学習するフレームワークであるDreamTacVLAを紹介する。
我々のモデルは、高解像度の触覚画像がマイクロビジョン入力として機能する階層的認識方式を採用している。
より詳細な接触力学の理解を深めるために,将来的な触覚信号を予測する触覚世界モデルを用いてシステムを微調整する。
論文 参考訳(メタデータ) (2025-12-29T21:06:33Z) - Simultaneous Tactile-Visual Perception for Learning Multimodal Robot Manipulation [21.78866976181311]
See-through-skin (STS) センサーは触覚と視覚を結合する。
既存のSTSの設計では、同時的なマルチモーダル認識が欠如し、信頼性の低い触覚追跡に悩まされている。
STSセンサであるTacThruを導入し,視覚認識と触覚信号抽出を同時に行う。
論文 参考訳(メタデータ) (2025-12-10T17:35:13Z) - VLA-Touch: Enhancing Vision-Language-Action Models with Dual-Level Tactile Feedback [21.08021535027628]
VLA-Touchは、触覚センサを用いた汎用ロボットポリシーを強化するアプローチである。
提案手法では,(1)高レベルタスク計画のためのセマンティックな触覚フィードバックを提供する事前学習された触覚言語モデルを利用するパイプラインと,(2)コンタクトリッチな操作のための触覚信号を用いたVLA生成動作を洗練する拡散型コントローラの2つを導入している。
論文 参考訳(メタデータ) (2025-07-23T07:54:10Z) - ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation [62.58034332427291]
ForceVLAは、新しいエンドツーエンド操作フレームワークである。
外部力センシングは、VLAシステム内の第一級のモダリティとして扱う。
論文 参考訳(メタデータ) (2025-05-28T09:24:25Z) - RoboPack: Learning Tactile-Informed Dynamics Models for Dense Packing [38.97168020979433]
本稿では, 視覚と触覚を組み合わせ, 触覚インフォームド・ダイナミックスモデルを学習することでロボット操作を実現するアプローチを提案する。
提案するフレームワークであるRoboPackは、オブジェクト状態を推定するために、リカレントグラフニューラルネットワークを使用している。
我々は,非包括的操作と密包装作業に対するソフトバブル触覚センサを備えた実ロボットへのアプローチを実証する。
論文 参考訳(メタデータ) (2024-07-01T16:08:37Z) - Dynamic Modeling of Hand-Object Interactions via Tactile Sensing [133.52375730875696]
本研究では,高分解能な触覚グローブを用いて,多種多様な物体に対して4種類のインタラクティブな動作を行う。
我々は,クロスモーダル学習フレームワーク上にモデルを構築し,視覚処理パイプラインを用いてラベルを生成し,触覚モデルを監督する。
この研究は、高密度触覚センシングによる手動物体相互作用における動的モデリングの一歩を踏み出す。
論文 参考訳(メタデータ) (2021-09-09T16:04:14Z) - Elastic Tactile Simulation Towards Tactile-Visual Perception [58.44106915440858]
触覚シミュレーションのための粒子の弾性相互作用(EIP)を提案する。
EIPは、触覚センサを協調粒子群としてモデル化し、接触時の粒子の変形を制御するために弾性特性を適用した。
さらに,触覚データと視覚画像間の情報融合を可能にする触覚知覚ネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-11T03:49:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。