論文の概要: HapticVLA: Contact-Rich Manipulation via Vision-Language-Action Model without Inference-Time Tactile Sensing
- arxiv url: http://arxiv.org/abs/2603.15257v1
- Date: Mon, 16 Mar 2026 13:24:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.86778
- Title: HapticVLA: Contact-Rich Manipulation via Vision-Language-Action Model without Inference-Time Tactile Sensing
- Title(参考訳): HapticVLA:推論時触覚を伴わない視覚・言語・反応モデルによるコンタクトリッチ操作
- Authors: Konstantin Gubernatorov, Mikhail Sannikov, Ilya Mikhalchuk, Egor Kuznetsov, Makar Artemov, Ogunwoye Faith Ouwatobi, Marcelino Fernando, Artem Asanov, Ziang Guo, Dzmitry Tsetserukou,
- Abstract要約: 触覚を意識した操作はオフラインで学習でき、推論時に直接触覚フィードバックなしで展開できると我々は主張する。
本稿では,HapticVLAについて述べる。HapticVLAは,SA-RWFM (Safety-Aware Reward-Weighted Flow Matching) とTactile Distillation (TD) の2つの密結合段階で進行する。
- 参考スコア(独自算出の注目度): 1.5861606459586157
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Tactile sensing is a crucial capability for Vision-Language-Action (VLA) architectures, as it enables dexterous and safe manipulation in contact-rich tasks. However, reliance on dedicated tactile hardware increases cost and reduces reproducibility across robotic platforms. We argue that tactile-aware manipulation can be learned offline and deployed without direct haptic feedback at inference. To this end, we present HapticVLA, which proceeds in two tightly coupled stages: Safety-Aware Reward-Weighted Flow Matching (SA-RWFM) and Tactile Distillation (TD). SA-RWFM trains a flow-matching action expert that incorporates precomputed, safety-aware tactile rewards penalizing excessive grasping force and suboptimal grasping trajectories. TD further transfers this tactile-aware capability into a conventional VLA: we distill a compact tactile token from the SA-RWFM teacher and train a student VLA to predict that token from vision and state modalities, enabling tactile-aware action generation at inference without requiring on-board tactile sensors. This design preserves contact-rich tactile-aware reasoning within VLA while removing the need for on-board tactile sensors during deployment. On real-world experiments, HapticVLA achieves a mean success rate of 86.7%, consistently outperforming baseline VLAs - including versions provided with direct tactile feedback during inference.
- Abstract(参考訳): 触覚は視覚ランゲージ・アクション(VLA)アーキテクチャにとって重要な機能である。
しかし、専用の触覚ハードウェアへの依存はコストを増大させ、ロボットプラットフォーム間の再現性を低下させる。
触覚を意識した操作はオフラインで学習でき、推論時に直接触覚フィードバックなしで展開できると我々は主張する。
この目的のために,HapticVLAを2つの密結合段階,SA-RWFM (Safety-Aware Reward-Weighted Flow Matching) と Tactile Distillation (TD) を提示する。
SA-RWFMは、事前計算された、安全を意識した触覚報酬を取り入れたフローマッチングアクションエキスパートを訓練し、過剰なつかみ力と準最適つかみ軌跡を罰する。
我々はSA-RWFM教師から小型の触覚トークンを蒸留し、学生のVLAを訓練し、そのトークンを視覚と状態のモダリティから予測し、オンボードの触覚センサを必要とせずに、推論時の触覚アクション生成を可能にする。
この設計は、VLA内のコンタクトリッチな触覚認識推論を保ちながら、展開中に搭載された触覚センサーの必要性を除去する。
実世界の実験では、HapticVLAは86.7%の平均的な成功率を達成し、推論中に直接触覚フィードバックを提供するバージョンを含む、一貫してベースラインVLAを上回っている。
関連論文リスト
- OmniVTA: Visuo-Tactile World Modeling for Contact-Rich Robotic Manipulation [60.609604885961716]
textbfOmniViTacは,16ドルのタスクと100ドル以上のオブジェクトからなる21,000ドル以上のトラジェクトリからなる大規模ビズオタクティルアクションデータセットである。
我々は4つの密結合モジュールを統合する世界モデルベースのビジュオ触覚操作フレームワークである textbf OmniVTA を提案する。
論文 参考訳(メタデータ) (2026-03-19T17:52:42Z) - TacVLA: Contact-Aware Tactile Fusion for Robust Vision-Language-Action Manipulation [27.000763540977506]
VLA(Vision-Language-Action)モデルは、ロボット操作において大きな優位性を示している。
本稿では,触覚モーダルを変換器のポリシーに組み込んだ微調整VLAモデルTacVLAを提案する。
本稿では,接触検出時にのみ触覚トークンを選択的に活性化する接触認識ゲーティング機構を提案する。
論文 参考訳(メタデータ) (2026-03-13T05:20:41Z) - Collaborative Representation Learning for Alignment of Tactile, Language, and Vision Modalities [19.45726946555448]
触覚は視覚と言語に豊かで相補的な情報を提供し、ロボットはきめ細かい物体の性質を知覚することができる。
既存の手法では、触覚、言語、視覚のモダリティ間の中間的コミュニケーションを完全に統合することができない。
TLV-CoReは,CLIPをベースとした触覚・言語・視覚協調表現学習手法である。
論文 参考訳(メタデータ) (2025-11-14T17:34:20Z) - VLA-Touch: Enhancing Vision-Language-Action Models with Dual-Level Tactile Feedback [21.08021535027628]
VLA-Touchは、触覚センサを用いた汎用ロボットポリシーを強化するアプローチである。
提案手法では,(1)高レベルタスク計画のためのセマンティックな触覚フィードバックを提供する事前学習された触覚言語モデルを利用するパイプラインと,(2)コンタクトリッチな操作のための触覚信号を用いたVLA生成動作を洗練する拡散型コントローラの2つを導入している。
論文 参考訳(メタデータ) (2025-07-23T07:54:10Z) - Tactile-VLA: Unlocking Vision-Language-Action Model's Physical Knowledge for Tactile Generalization [14.189391793395384]
本稿では,視覚,言語,行動,触覚を深く融合させる新しいフレームワークであるTactile-VLAを紹介する。
実験では、Tactile-VLAの有効性と一般化性を3つの重要な側面で示している。
論文 参考訳(メタデータ) (2025-07-12T06:44:37Z) - ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation [62.58034332427291]
ForceVLAは、新しいエンドツーエンド操作フレームワークである。
外部力センシングは、VLAシステム内の第一級のモダリティとして扱う。
論文 参考訳(メタデータ) (2025-05-28T09:24:25Z) - Reactive Diffusion Policy: Slow-Fast Visual-Tactile Policy Learning for Contact-Rich Manipulation [58.95799126311524]
人間は視覚と触覚を使って、外的変化に対する迅速な応答や接触力の適応制御のような非常に反応性の高い能力で、コンタクトリッチなタスクを達成できる。
既存の視覚模倣学習アプローチは、複雑な振る舞いをモデル化するためにアクションチャンキングに依存している。
本稿では,Augmented Realityを通じてリアルタイム触覚フィードバックを提供する,低コスト遠隔操作システムであるTactARを紹介する。
論文 参考訳(メタデータ) (2025-03-04T18:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。