論文の概要: Universal Visuo-Tactile Video Understanding for Embodied Interaction
- arxiv url: http://arxiv.org/abs/2505.22566v1
- Date: Wed, 28 May 2025 16:43:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.739548
- Title: Universal Visuo-Tactile Video Understanding for Embodied Interaction
- Title(参考訳): 身体的インタラクションのためのユニバーサルビジュオ触覚映像理解
- Authors: Yifan Xie, Mingyang Li, Shoujie Li, Xingting Li, Guangyu Chen, Fei Ma, Fei Richard Yu, Wenbo Ding,
- Abstract要約: 本稿では,VTV-LLMについて紹介する。
VTV-LLMは触覚と自然言語のギャップを埋める。
本稿では,VTVによるビジュオ触覚表現の強化を含む新しい3段階トレーニングパラダイムを開発する。
- 参考スコア(独自算出の注目度): 16.587054862266168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tactile perception is essential for embodied agents to understand physical attributes of objects that cannot be determined through visual inspection alone. While existing approaches have made progress in visual and language modalities for physical understanding, they fail to effectively incorporate tactile information that provides crucial haptic feedback for real-world interaction. In this paper, we present VTV-LLM, the first multi-modal large language model for universal Visuo-Tactile Video (VTV) understanding that bridges the gap between tactile perception and natural language. To address the challenges of cross-sensor and cross-modal integration, we contribute VTV150K, a comprehensive dataset comprising 150,000 video frames from 100 diverse objects captured across three different tactile sensors (GelSight Mini, DIGIT, and Tac3D), annotated with four fundamental tactile attributes (hardness, protrusion, elasticity, and friction). We develop a novel three-stage training paradigm that includes VTV enhancement for robust visuo-tactile representation, VTV-text alignment for cross-modal correspondence, and text prompt finetuning for natural language generation. Our framework enables sophisticated tactile reasoning capabilities including feature assessment, comparative analysis, scenario-based decision making and so on. Experimental evaluations demonstrate that VTV-LLM achieves superior performance in tactile video understanding tasks, establishing a foundation for more intuitive human-machine interaction in tactile domains.
- Abstract(参考訳): 触覚は、視覚検査だけでは判断できない物体の物理的特性を理解するために、エンボディエージェントにとって不可欠である。
既存のアプローチでは、物理的理解のための視覚的・言語的モダリティが進歩しているが、現実世界の相互作用に重要な触覚フィードバックを提供する触覚情報を効果的に組み込むことはできなかった。
本稿では, VTV-LLMについて, 触覚と自然言語のギャップを埋める, 普遍的ビジュオ触覚ビデオ(VTV)のためのマルチモーダルな大規模言語モデルを提案する。
VTV150Kは3つの異なる触覚センサ(GelSight Mini, DIGIT, Tac3D)でキャプチャされた100の多様な物体から15万の動画フレームを合成し, 4つの基本触覚特性(硬さ, 突発性, 弾性性, 摩擦性)を付加した包括的データセットである。
そこで我々は,VTVによる堅牢なビジュオ触覚表現の強化,相互対応のためのVTVテキストアライメント,自然言語生成のためのテキストプロンプト微調整など,新しい3段階トレーニングパラダイムを開発した。
本フレームワークは,特徴評価,比較分析,シナリオベースの意思決定など,高度な触覚推論機能を実現する。
VTV-LLMは、触覚映像理解タスクにおいて優れた性能を示し、触覚領域におけるより直感的な人間と機械の相互作用の基礎を確立した。
関連論文リスト
- AnyTouch: Learning Unified Static-Dynamic Representation across Multiple Visuo-tactile Sensors [11.506370451126378]
Visuo-Tactileセンサーは、人間の触覚をエミュレートし、ロボットが物体を理解して操作できるようにする。
そこで本研究では,4種類のビジュオ触覚センサを用いたマルチモーダル触覚マルチセンサデータセットであるTacQuadを紹介する。
マルチレベル構造を持つ静的動的マルチセンサ表現学習フレームワークであるAnyTouchを提案する。
論文 参考訳(メタデータ) (2025-02-15T08:33:25Z) - Towards Comprehensive Multimodal Perception: Introducing the Touch-Language-Vision Dataset [50.09271028495819]
タッチに関するマルチモーダル研究は 視覚と触覚のモダリティに焦点を当てています
我々は,人機械のカスケード協調によるTLV (Touch-Language-Vision) というタッチ言語ビジョンデータセットを構築した。
論文 参考訳(メタデータ) (2024-03-14T19:01:54Z) - Let's Think Frame by Frame with VIP: A Video Infilling and Prediction
Dataset for Evaluating Video Chain-of-Thought [62.619076257298204]
我々は、少数のビデオ推論のシーケンシャルな理解として、フレーミングビデオ推論を動機付けている。
VIPは、ビデオチェーンオブ思考を通してモデルの推論能力を調べるために設計された、推論時の課題データセットである。
我々は、VIP上でGPT-4、GPT-3、VICUNAをベンチマークし、複雑なビデオ推論タスクのパフォーマンスギャップを実証し、今後の作業を促進する。
論文 参考訳(メタデータ) (2023-05-23T10:26:42Z) - Dynamic Modeling of Hand-Object Interactions via Tactile Sensing [133.52375730875696]
本研究では,高分解能な触覚グローブを用いて,多種多様な物体に対して4種類のインタラクティブな動作を行う。
我々は,クロスモーダル学習フレームワーク上にモデルを構築し,視覚処理パイプラインを用いてラベルを生成し,触覚モデルを監督する。
この研究は、高密度触覚センシングによる手動物体相互作用における動的モデリングの一歩を踏み出す。
論文 参考訳(メタデータ) (2021-09-09T16:04:14Z) - Elastic Tactile Simulation Towards Tactile-Visual Perception [58.44106915440858]
触覚シミュレーションのための粒子の弾性相互作用(EIP)を提案する。
EIPは、触覚センサを協調粒子群としてモデル化し、接触時の粒子の変形を制御するために弾性特性を適用した。
さらに,触覚データと視覚画像間の情報融合を可能にする触覚知覚ネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-11T03:49:59Z) - Learning Intuitive Physics with Multimodal Generative Models [24.342994226226786]
本稿では,視覚と触覚のフィードバックを融合させ,動的シーンにおける物体の動きを予測する枠組みを提案する。
我々は、接触面の高解像度マルチモーダルセンシングを提供する新しいSee-Through-your-Skin(STS)センサを使用します。
物体の静止状態を所定の初期条件から予測するシミュレーションおよび実世界の実験を通じて検証する。
論文 参考訳(メタデータ) (2021-01-12T12:55:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。