論文の概要: TouchAnything: A Dataset and Framework for Bimanual Tactile Estimation from Egocentric Video
- arxiv url: http://arxiv.org/abs/2605.13083v1
- Date: Wed, 13 May 2026 06:54:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.861265
- Title: TouchAnything: A Dataset and Framework for Bimanual Tactile Estimation from Egocentric Video
- Title(参考訳): TouchAnything:エゴセントリックビデオからの双方向触覚推定のためのデータセットとフレームワーク
- Authors: Jianyi Zhou, Ziteng Gao, Feiyang Hong, Zirui Liu, Guannan Zhang, Weisheng Dai, Ruichen Zhen, Chuqiao Lyu, Haotian Wu, Yinian Mao, Xushi Wang, Yuxiang Jiang, Wenbo Ding, Shuo Yang,
- Abstract要約: EgoTouchは大規模なエゴセントリックなデータセットで、手動オブジェクトのインタラクションを厳密な触覚で監視する。
TouchAnythingは、自我中心のビューを主入力として使用する、視覚と触覚の予測フレームワークである。
データセット、コード、ベンチマークを公開します。
- 参考スコア(独自算出の注目度): 20.373348802426143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Egocentric human video data, which captures rich human-environment interactions and can be collected at scale, has become a key driver of embodied intelligence research. However, existing egocentric datasets typically lack tactile sensing, a critical modality that provides direct cues about contact, force, and pressure in human-object interaction. Without such signals, models struggle to learn physically grounded representations of real-world interaction dynamics. While tactile sensors provide these cues, deploying high-quality tactile hardware at scale remains expensive and cumbersome. This raises a central question: can tactile feedback be inferred directly from visual observations, enabling scalable tactile supervision for egocentric video data and supporting physically grounded embodied learning? To enable research in this direction, we introduce EgoTouch, a large-scale multi-view egocentric dataset with dense tactile supervision for bimanual hand-object interaction. EgoTouch comprises 208 manipulation tasks spanning 1,891 episodes in diverse indoor and outdoor environments, with synchronized multi-view RGB (head-mounted egocentric and dual wrist-mounted cameras), bimanual 3D hand pose, and continuous pressure maps from wearable tactile sensors. Building on EgoTouch, we introduce TouchAnything, a baseline multi-view vision-to-touch prediction framework that uses the egocentric view as the primary input and flexibly leverages available wrist-mounted views at inference time. Experiments show that incorporating wrist-mounted views generally improves tactile prediction over egocentric-only input, achieving up to 5.0% relative improvement in Contact IoU and 6.1% relative improvement in Volumetric IoU. We will publicly release the dataset, code, and benchmark.
- Abstract(参考訳): エゴセントリックな人間のビデオデータは、リッチな人間と環境の相互作用を捉え、大規模に収集することができる。
しかし、既存のエゴセントリックなデータセットは触覚センサーが欠如しており、人間と物体の相互作用における接触、力、圧力に関する直接的な手がかりを提供する。
このような信号がなければ、モデルは現実世界の相互作用力学の物理的基礎的な表現を学ぶのに苦労する。
触覚センサーはこれらの手がかりを提供するが、高品質な触覚ハードウェアを大規模に展開することは、高価で面倒だ。
これは、触覚フィードバックを視覚的な観察から直接推測し、エゴセントリックなビデオデータに対するスケーラブルな触覚の監視を可能にし、物理的に基礎を成す学習をサポートすることができるかという、中心的な疑問を提起する。
この方向の研究を可能にするために,多視点エゴセントリックな大規模データセットであるEgoTouchを紹介した。
EgoTouchは、さまざまな屋内および屋外環境で1,891エピソードにわたる208の操作タスクで構成されており、同期されたマルチビューRGB(ヘッドマウントのエゴシックカメラとデュアル手首マウントカメラ)、双方向の3Dハンドポーズ、ウェアラブルの触覚センサーからの連続的な圧力マップを備えている。
EgoTouch上に構築されているTouchAnythingは,エゴセントリックビューを主入力として使用し,推論時に利用可能な手首マウントビューを柔軟に活用する,ベースラインの多視点視覚-タッチ予測フレームワークである。
実験により、手首に装着したビューを組み込むことで、エゴセントリックな入力よりも触覚の予測が向上し、コンタクトIoUの5.0%、ボリュームIoUの6.1%の相対的な改善が達成された。
データセット、コード、ベンチマークを公開します。
関連論文リスト
- OPENTOUCH: Bringing Full-Hand Touch to Real-World Interaction [93.88239833545623]
OpenTouchは、最初のインザワイルドなエゴセントリックなフルハンド触覚データセットです。
触覚信号は,理解のためのコンパクトで強力なキューを提供する。
我々は,マルチモーダルな自我中心の知覚,具体的学習,接触に富むロボット操作の促進を目指す。
論文 参考訳(メタデータ) (2025-12-18T18:18:17Z) - Grasp Like Humans: Learning Generalizable Multi-Fingered Grasping from Human Proprioceptive Sensorimotor Integration [26.351720551267846]
触覚と審美的知覚は、人間の器用な操作に欠かせないものであり、感覚運動器統合による物体の確実な把握を可能にしている。
本研究では,人間の直感的・自然な操作から模倣学習に基づくロボット実行へのスキル伝達を把握するための,新しい手袋による触覚的知覚予測フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-10T07:44:12Z) - Perceiving and Acting in First-Person: A Dataset and Benchmark for Egocentric Human-Object-Human Interactions [110.43343503158306]
本稿では、手動支援タスクを視覚言語アクションフレームワークに組み込み、そのアシスタントは、自我中心のビジョンとコマンドに従ってインストラクターにサービスを提供する。
この設定の下で、我々は、マルチモーダルデータの11.4時間1.2Mフレームを持つ、最初の大規模人・物・人間のインタラクションデータセットであるInterVLAを達成した。
我々は,エゴセントリックな人の動き推定,相互作用合成,および包括的分析による相互作用予測に関する新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2025-08-06T17:46:23Z) - EgoPressure: A Dataset for Hand Pressure and Pose Estimation in Egocentric Vision [69.1005706608681]
EgoPressureは、詳細なタッチ接触と圧力相互作用をキャプチャする、新しいエゴセントリックなデータセットである。
本データセットは,頭部に装着した1台のKinectカメラと静止した7台のKinectカメラで同時に捉えた21人の被験者からの5時間の対話を収録した。
論文 参考訳(メタデータ) (2024-09-03T18:53:32Z) - Benchmarks and Challenges in Pose Estimation for Egocentric Hand Interactions with Objects [89.95728475983263]
ロボティクス、AR/VR、アクション認識、モーション生成といったタスクにおいて、自己中心的な視点からこのようなインタラクションを理解することが重要である。
我々は、AmblyHandsとARCTICデータセットに基づいたHANDS23チャレンジを、慎重に設計されたトレーニングとテストの分割に基づいて設計する。
提案手法の結果と近年のリーダーボードのベースラインに基づいて,3Dハンド(オブジェクト)再構成タスクの徹底的な解析を行う。
論文 参考訳(メタデータ) (2024-03-25T05:12:21Z) - Touch and Go: Learning from Human-Collected Vision and Touch [16.139106833276]
我々はTouch and Goという,視覚と触覚のペアデータを用いたデータセットを提案する。
人間のデータ収集者は触覚センサーを使って自然環境の物体を探査する。
私たちのデータセットは、多数の"野生の"オブジェクトとシーンにまたがっています。
論文 参考訳(メタデータ) (2022-11-22T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。