論文の概要: TactEx: An Explainable Multimodal Robotic Interaction Framework for Human-Like Touch and Hardness Estimation
- arxiv url: http://arxiv.org/abs/2602.18967v1
- Date: Sat, 21 Feb 2026 22:18:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.621117
- Title: TactEx: An Explainable Multimodal Robotic Interaction Framework for Human-Like Touch and Hardness Estimation
- Title(参考訳): TactEx:人間の触覚と硬さ推定のための説明可能なマルチモーダルロボットインタラクションフレームワーク
- Authors: Felix Verstraete, Lan Wei, Wen Fan, Dandan Zhang,
- Abstract要約: TactExは、視覚、触覚、言語を人間のような硬さの推定と対話的なガイダンスのために統合するフレームワークである。
我々は,触覚と文脈理解の両方を必要とする代表的な課題である果実熟度評価におけるTactExの評価を行った。
- 参考スコア(独自算出の注目度): 7.33273170759158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate perception of object hardness is essential for safe and dexterous contact-rich robotic manipulation. Here, we present TactEx, an explainable multimodal robotic interaction framework that unifies vision, touch, and language for human-like hardness estimation and interactive guidance. We evaluate TactEx on fruit-ripeness assessment, a representative task that requires both tactile sensing and contextual understanding. The system fuses GelSight-Mini tactile streams with RGB observations and language prompts. A ResNet50+LSTM model estimates hardness from sequential tactile data, while a cross-modal alignment module combines visual cues with guidance from a large language model (LLM). This explainable multimodal interface allows users to distinguish ripeness levels with statistically significant class separation (p < 0.01 for all fruit pairs). For touch placement, we compare YOLO with Grounded-SAM (GSAM) and find GSAM to be more robust for fine-grained segmentation and contact-site selection. A lightweight LLM parses user instructions and produces grounded natural-language explanations linked to the tactile outputs. In end-to-end evaluations, TactEx attains 90% task success on simple user queries and generalises to novel tasks without large-scale tuning. These results highlight the promise of combining pretrained visual and tactile models with language grounding to advance explainable, human-like touch perception and decision-making in robotics.
- Abstract(参考訳): 物体の硬さの正確な認識は、安全で器用な接触に富むロボット操作に不可欠である。
本稿では,人間のような硬さ推定と対話的指導のための視覚,触覚,言語を統一する,説明可能なマルチモーダルロボットインタラクションフレームワークであるTactExを紹介する。
我々は,触覚と文脈理解の両方を必要とする代表的な課題である果実熟度評価におけるTactExの評価を行った。
このシステムは、RGB観測と言語プロンプトでGelSight-Miniの触覚ストリームを融合する。
ResNet50+LSTMモデルは、連続した触覚データから硬さを推定し、一方、クロスモーダルアライメントモジュールは、視覚的なキューと大きな言語モデル(LLM)からのガイダンスを組み合わせる。
この説明可能なマルチモーダルインタフェースは、統計学的に有意なクラス分離(すべての果実対のp < 0.01)で熟度レベルを区別することができる。
タッチ配置では, YOLO と Grounded-SAM (GSAM) を比較し, GSAM がよりきめ細かなセグメンテーションや接点選択においてより堅牢であることを示す。
軽量LLMは、ユーザ指示を解析し、触覚出力にリンクした接地された自然言語説明を生成する。
エンドツーエンドの評価では、TactExは単純なユーザクエリで90%のタスク成功を実現し、大規模なチューニングなしで新しいタスクに一般化する。
これらの結果は、ロボット工学において、事前訓練された視覚モデルと触覚モデルと言語接地モデルを組み合わせることで、説明可能な人間のようなタッチ認識と意思決定を前進させるという約束を強調している。
関連論文リスト
- Tactile Memory with Soft Robot: Robust Object Insertion via Masked Encoding and Soft Wrist [10.982180941605256]
我々は,ソフトハンドと検索制御を統合し,安全で堅牢な操作を可能にするシステムであるTactile Memory with Soft Robot (TaSo-bot)を紹介した。
このシステムの中核はMasked Tactile Trajectory Transformer (MATtext3$) で、ロボットの動作、触覚フィードバック、力トルク測定、および受容性信号の相互作用を共同でモデル化する。
MATtext3$は、すべての条件に対するベースラインよりも高い成功率を実現し、目に見えないペグや条件に適応する顕著な能力を示している。
論文 参考訳(メタデータ) (2026-01-27T07:04:01Z) - Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding [85.63710017456792]
FuSeは、不均一なセンサのモダリティに対する微調整型ビズモータ一般政策を可能にする新しいアプローチである。
FuSeは視覚,触覚,音などのモーダル性に対して共同で推論を必要とする挑戦的なタスクを実行できることを示す。
実世界での実験では、FuSeisはすべての基準ラインと比較して成功率を20%以上引き上げることができた。
論文 参考訳(メタデータ) (2025-01-08T18:57:33Z) - TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。
モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。
このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - Towards Comprehensive Multimodal Perception: Introducing the Touch-Language-Vision Dataset [50.09271028495819]
タッチに関するマルチモーダル研究は 視覚と触覚のモダリティに焦点を当てています
我々は,人機械のカスケード協調によるTLV (Touch-Language-Vision) というタッチ言語ビジョンデータセットを構築した。
論文 参考訳(メタデータ) (2024-03-14T19:01:54Z) - Expanding Frozen Vision-Language Models without Retraining: Towards
Improved Robot Perception [0.0]
視覚言語モデル(VLM)は、視覚的質問応答と推論タスクにおいて強力な能力を示している。
本稿では,異なるモダリティの埋め込み空間を視覚埋め込み空間に整列させる手法を示す。
複数モードを入力として使用すると、VLMのシーン理解が向上し、様々なタスクにおける全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-08-31T06:53:55Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - Chat with the Environment: Interactive Multimodal Perception Using Large
Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。
本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文 参考訳(メタデータ) (2023-03-14T23:01:27Z) - Dynamic Modeling of Hand-Object Interactions via Tactile Sensing [133.52375730875696]
本研究では,高分解能な触覚グローブを用いて,多種多様な物体に対して4種類のインタラクティブな動作を行う。
我々は,クロスモーダル学習フレームワーク上にモデルを構築し,視覚処理パイプラインを用いてラベルを生成し,触覚モデルを監督する。
この研究は、高密度触覚センシングによる手動物体相互作用における動的モデリングの一歩を踏み出す。
論文 参考訳(メタデータ) (2021-09-09T16:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。