論文の概要: VitaTouch: Property-Aware Vision-Tactile-Language Model for Robotic Quality Inspection in Manufacturing
- arxiv url: http://arxiv.org/abs/2604.03322v1
- Date: Thu, 02 Apr 2026 09:24:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.510391
- Title: VitaTouch: Property-Aware Vision-Tactile-Language Model for Robotic Quality Inspection in Manufacturing
- Title(参考訳): VitaTouch:製造におけるロボット品質検査のための特性認識型視覚触覚言語モデル
- Authors: Junyi Zong, Qingxuan Jia, Meixian Shi, Tong Li, Jiayuan Li, Zihang Lv, Gang Chen, Fang Deng,
- Abstract要約: VitaTouchは、マテリアルプロパティ推論と自然言語属性記述のための視覚触覚言語モデルである。
我々は,186個のオブジェクト,52k画像,5.1k個の人間検証型インストラクション・アンサー・ペアを用いたマルチモーダルデータセットを構築した。
VitaTouchはHCTとTVLベンチマークで最高のパフォーマンスを達成しているが、SSVTPでは競争力を維持している。
- 参考スコア(独自算出の注目度): 15.446632940347122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quality inspection in smart manufacturing requires identifying intrinsic material and surface properties beyond visible geometry, yet vision-only methods remain vulnerable to occlusion and reflection. We propose VitaTouch, a property-aware vision-tactile-language model for material-property inference and natural-language attribute description. VitaTouch uses modality-specific encoders and a dual Q-Former to extract language-relevant visual and tactile features, which are compressed into prefix tokens for a large language model. We align each modality with text and explicitly couple vision and touch through contrastive learning. We also construct VitaSet, a multimodal dataset with 186 objects, 52k images, and 5.1k human-verified instruction-answer pairs. VitaTouch achieves the best performance on HCT and the overall TVL benchmark, while remaining competitive on SSVTP. On VitaSet, it reaches 88.89% hardness accuracy, 75.13% roughness accuracy, and 54.81% descriptor recall; the material-description task further achieves a peak semantic similarity of 0.9009. With LoRA-based fine-tuning, VitaTouch attains 100.0%, 96.0%, and 92.0% accuracy for 2-, 3-, and 5-category defect recognition, respectively, and delivers 94.0% closed-loop recognition accuracy and 94.0% end-to-end sorting success in 100 laboratory robotic trials. More details are available at the project page: https://vitatouch.github.io/
- Abstract(参考訳): スマートマニュファクチャリングにおける品質検査は、目に見える幾何学を超えて固有の材料や表面特性を特定する必要があるが、視覚のみの手法は隠蔽や反射に弱いままである。
本稿では,プロパティ認識型視覚触覚言語モデルであるVitaTouchを提案する。
VitaTouchは、モダリティ固有のエンコーダとデュアルQ-Formerを使用して、言語に関連する視覚的特徴と触覚的特徴を抽出し、大きな言語モデルのためにプレフィックストークンに圧縮する。
それぞれのモダリティをテキストと一致させ、視覚と触覚を両立させ、対照的な学習を通して触れる。
また、VitaSetは186のオブジェクト、52kのイメージ、および5.1kの人間検証された命令-回答ペアを持つマルチモーダルデータセットである。
VitaTouchはHCTとTVLベンチマークで最高のパフォーマンスを達成しているが、SSVTPでは競争力を維持している。
VitaSetでは、88.89%の硬さの精度、75.13%の粗さの精度、54.81%の記述子リコールを実現している。
LoRAベースの微調整により、VitaTouchは2-、3-、5-カテゴリの欠陥認識においてそれぞれ100.0%、96.0%、92.0%の精度を達成し、100の実験ロボット実験において94.0%のクローズドループ認識精度と94.0%のエンドツーエンドソート成功を提供する。
詳細はプロジェクトのページで確認できる。
関連論文リスト
- OPENTOUCH: Bringing Full-Hand Touch to Real-World Interaction [93.88239833545623]
OpenTouchは、最初のインザワイルドなエゴセントリックなフルハンド触覚データセットです。
触覚信号は,理解のためのコンパクトで強力なキューを提供する。
我々は,マルチモーダルな自我中心の知覚,具体的学習,接触に富むロボット操作の促進を目指す。
論文 参考訳(メタデータ) (2025-12-18T18:18:17Z) - PerTouch: VLM-Driven Agent for Personalized and Semantic Image Retouching [54.3683137773426]
本稿ではPerTouchと呼ばれる拡散型画像修正フレームワークを提案する。
本手法は,グローバルな美学を維持しつつ,セマンティックレベルのイメージリタッチをサポートする。
我々は,強力なユーザ命令と弱いユーザ命令の両方を扱えるVLMエージェントを開発した。
論文 参考訳(メタデータ) (2025-11-17T05:39:15Z) - RA-Touch: Retrieval-Augmented Touch Understanding with Enriched Visual Data [10.059624183053499]
視覚触覚は、テクスチャ、柔らかさ、剛性などの物体の触覚特性を理解することを目的としている。
我々は,触覚のセマンティクスに富んだ視覚データを活用することで,視触覚知覚を改善する検索拡張フレームワークであるRA-Touchを紹介する。
論文 参考訳(メタデータ) (2025-05-20T12:23:21Z) - PseudoTouch: Efficiently Imaging the Surface Feel of Objects for Robotic Manipulation [8.997347199266592]
低次元センサ信号に高次元構造情報をリンクするPseudoTouchを提案する。
低次元の視覚触覚埋め込みを学習し、そこから触覚信号を復号する深度パッチを符号化する。
学習したPseudoTouchモデルの有用性を、物体認識と把握安定性予測という2つの下流タスクで実証する。
論文 参考訳(メタデータ) (2024-03-22T10:51:31Z) - Towards Comprehensive Multimodal Perception: Introducing the Touch-Language-Vision Dataset [50.09271028495819]
タッチに関するマルチモーダル研究は 視覚と触覚のモダリティに焦点を当てています
我々は,人機械のカスケード協調によるTLV (Touch-Language-Vision) というタッチ言語ビジョンデータセットを構築した。
論文 参考訳(メタデータ) (2024-03-14T19:01:54Z) - A Touch, Vision, and Language Dataset for Multimodal Alignment [30.616909132040764]
この研究は、GPT-4V (90%) の人による注釈付き英語ラベル(10%)とテキスト擬似ラベル(90%)による、44K in-the-wild Vision-touchペアの新しいデータセットを導入している。
このデータセットを用いて、オープン語彙分類のための視覚言語対応触覚エンコーダと、訓練されたエンコーダを用いたテキスト生成のためのタッチビジョン言語モデルをトレーニングする。
その結果, 触覚を取り入れることで, TVL モデルでは既存のモデルよりもタッチビジョン言語アライメント(+29%の分類精度)が向上することが示唆された。
論文 参考訳(メタデータ) (2024-02-20T18:47:56Z) - PyTouch: A Machine Learning Library for Touch Processing [68.32055581488557]
我々は、タッチセンシング信号の処理に特化した、最初の機械学習ライブラリであるPyTouchを紹介する。
PyTouchはモジュール式で使いやすく、最先端のタッチ処理機能をサービスとして提供するように設計されている。
タッチ検出,スリップ,オブジェクトポーズ推定などのタッチ処理タスクにおいて,触覚センサの実際のデータからPyTouchを評価する。
論文 参考訳(メタデータ) (2021-05-26T18:55:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。