論文の概要: Seeing Through Touch: Tactile-Driven Visual Localization of Material Regions
- arxiv url: http://arxiv.org/abs/2604.11579v1
- Date: Mon, 13 Apr 2026 14:57:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.632289
- Title: Seeing Through Touch: Tactile-Driven Visual Localization of Material Regions
- Title(参考訳): 触覚で見る: 触覚による物質領域の視覚的局在
- Authors: Seongyu Kim, Seungwoo Lee, Hyeonggon Ryu, Joon Son Chung, Arda Senocak,
- Abstract要約: 触覚局所化の問題に対処し,触覚入力と同じ材料特性を持つ画像領域を同定する。
既存のvisuo-tactile法は、グローバルアライメントに依存しているため、このタスクに必要なきめ細かいローカル通信をキャプチャできない。
そこで本研究では,密接なクロスモーダルな特徴相互作用を通じて局所的ビジュオ・触覚アライメントを学習し,触覚サーチエンシマップによるタッチ条件物質セグメンテーションを実現するモデルを提案する。
- 参考スコア(独自算出の注目度): 42.26043073031702
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the problem of tactile localization, where the goal is to identify image regions that share the same material properties as a tactile input. Existing visuo-tactile methods rely on global alignment and thus fail to capture the fine-grained local correspondences required for this task. The challenge is amplified by existing datasets, which predominantly contain close-up, low-diversity images. We propose a model that learns local visuo-tactile alignment via dense cross-modal feature interactions, producing tactile saliency maps for touch-conditioned material segmentation. To overcome dataset constraints, we introduce: (i) in-the-wild multi-material scene images that expand visual diversity, and (ii) a material-diversity pairing strategy that aligns each tactile sample with visually varied yet tactilely consistent images, improving contextual localization and robustness to weak signals. We also construct two new tactile-grounded material segmentation datasets for quantitative evaluation. Experiments on both new and existing benchmarks show that our approach substantially outperforms prior visuo-tactile methods in tactile localization.
- Abstract(参考訳): 触覚局所化の問題に対処し,触覚入力と同じ材料特性を持つ画像領域を同定する。
既存のvisuo-tactile法は、グローバルアライメントに依存しているため、このタスクに必要なきめ細かいローカル通信をキャプチャできない。
この課題は、主にクローズアップで低多様性の画像を含む既存のデータセットによって増幅される。
そこで本研究では,密接なクロスモーダルな特徴相互作用を通じて局所的ビジュオ触覚アライメントを学習し,触覚サーチエンシマップによるタッチ条件物質セグメンテーションを実現するモデルを提案する。
データセットの制約を克服するために、以下を紹介します。
(i)視覚的多様性を拡大する多素材シーン画像、及び
(II)各触覚サンプルを視覚的に変化しているが触覚的に整合性のある画像と整列させ、文脈的局所化と弱信号に対する堅牢性を向上させる材料多様性ペアリング戦略。
また,2つの新しい触覚接地材料セグメンテーションデータセットを構築し,定量的評価を行った。
新しいベンチマークと既存ベンチマークの両方の実験から,本手法は触覚の局所化において,従来のビジュオ触覚法よりも大幅に優れていたことが示唆された。
関連論文リスト
- Semantic-Contact Fields for Category-Level Generalizable Tactile Tool Manipulation [82.63833405368159]
ツール操作の一般化には、セマンティックプランニングと正確な物理的制御の両方が必要である。
本研究では,密接な接触推定を伴う視覚的意味論を融合した3次元表現であるセマンティック・コンタクト・フィールド(SCFields)を提案する。
スクレイピング、クレヨン描画、剥離の実験は、堅牢なカテゴリレベルの一般化を示している。
論文 参考訳(メタデータ) (2026-02-14T16:05:08Z) - Tactile MNIST: Benchmarking Active Tactile Perception [19.93022179513013]
本稿では,触覚タスクのためのオープンソースのGymnasium互換ベンチマークであるTactile MNIST Benchmark Suiteを紹介する。
私たちのベンチマークスイートは、単純な玩具環境から視覚ベースの触覚センサーを用いた複雑な触覚知覚タスクまで、さまざまなシミュレーションシナリオを提供しています。
また,600個の3Dプリントディジットから収集した合成3D MNIST桁モデル13,500点と実世界の触覚サンプル153,600点からなる包括的データセットも提供する。
論文 参考訳(メタデータ) (2025-06-03T14:42:16Z) - ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers [7.505873965164197]
ViTaPEsは,視覚的知覚のためのタスク非依存表現を学習するためのフレームワークである。
提案手法は,モーダル内構造を捉えるために,新しいマルチスケール位置符号化方式を利用する。
その結果,ViTaPEは様々な認識タスクにおいて最先端のベースラインを超越していることがわかった。
論文 参考訳(メタデータ) (2025-05-26T14:19:29Z) - AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。
われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-11T03:18:53Z) - View Consistent Purification for Accurate Cross-View Localization [59.48131378244399]
本稿では,屋外ロボットのための微細な自己局在化手法を提案する。
提案手法は,既存のクロスビューローカライゼーション手法の限界に対処する。
これは、動的環境における知覚を増強する初めての疎視のみの手法である。
論文 参考訳(メタデータ) (2023-08-16T02:51:52Z) - Visual-Tactile Sensing for In-Hand Object Reconstruction [38.42487660352112]
我々は、視覚触覚による手動オブジェクト再構成フレームワーク textbfVTacO を提案し、手動オブジェクト再構成のために textbfVTacOH に拡張する。
シミュレーション環境であるVT-Simは、剛性オブジェクトと変形可能なオブジェクトの両方のハンドオブジェクトインタラクションの生成をサポートする。
論文 参考訳(メタデータ) (2023-03-25T15:16:31Z) - VisTaNet: Attention Guided Deep Fusion for Surface Roughness
Classification [0.0]
本稿では,既存の触覚データセットを付加した視覚データセットを提案する。
4種類の融合戦略を用いて視覚・触覚データを融合する新しい深層融合アーキテクチャを提案する。
本モデルでは触覚のみに比べて表面粗さ分類精度が97.22%向上した。
論文 参考訳(メタデータ) (2022-09-18T09:37:06Z) - Point-Level Region Contrast for Object Detection Pre-Training [147.47349344401806]
本稿では,物体検出作業のための自己教師付き事前学習手法である点レベル領域コントラストを提案する。
提案手法は,異なる領域から個々の点対を直接抽出することにより,コントラスト学習を行う。
領域ごとの集約表現と比較すると,入力領域の品質の変化に対して,我々のアプローチはより堅牢である。
論文 参考訳(メタデータ) (2022-02-09T18:56:41Z) - 3D Shape Reconstruction from Vision and Touch [62.59044232597045]
3次元形状再構成では、視覚と触覚の相補的な融合はほとんど未解明のままである。
本稿では,ロボットハンドと多数の3Dオブジェクトの相互作用から,触覚と視覚信号のシミュレーションデータセットを提案する。
論文 参考訳(メタデータ) (2020-07-07T20:20:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。