論文の概要: RA-Touch: Retrieval-Augmented Touch Understanding with Enriched Visual Data
- arxiv url: http://arxiv.org/abs/2505.14270v1
- Date: Tue, 20 May 2025 12:23:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.166419
- Title: RA-Touch: Retrieval-Augmented Touch Understanding with Enriched Visual Data
- Title(参考訳): RA-Touch: リッチなビジュアルデータによる検索拡張型タッチ理解
- Authors: Yoorhim Cho, Hongyeob Kim, Semin Kim, Youjia Zhang, Yunseok Choi, Sungeun Hong,
- Abstract要約: 視覚触覚は、テクスチャ、柔らかさ、剛性などの物体の触覚特性を理解することを目的としている。
我々は,触覚のセマンティクスに富んだ視覚データを活用することで,視触覚知覚を改善する検索拡張フレームワークであるRA-Touchを紹介する。
- 参考スコア(独自算出の注目度): 10.059624183053499
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visuo-tactile perception aims to understand an object's tactile properties, such as texture, softness, and rigidity. However, the field remains underexplored because collecting tactile data is costly and labor-intensive. We observe that visually distinct objects can exhibit similar surface textures or material properties. For example, a leather sofa and a leather jacket have different appearances but share similar tactile properties. This implies that tactile understanding can be guided by material cues in visual data, even without direct tactile supervision. In this paper, we introduce RA-Touch, a retrieval-augmented framework that improves visuo-tactile perception by leveraging visual data enriched with tactile semantics. We carefully recaption a large-scale visual dataset with tactile-focused descriptions, enabling the model to access tactile semantics typically absent from conventional visual datasets. A key challenge remains in effectively utilizing these tactile-aware external descriptions. RA-Touch addresses this by retrieving visual-textual representations aligned with tactile inputs and integrating them to focus on relevant textural and material properties. By outperforming prior methods on the TVL benchmark, our method demonstrates the potential of retrieval-based visual reuse for tactile understanding. Code is available at https://aim-skku.github.io/RA-Touch
- Abstract(参考訳): 視覚触覚は、テクスチャ、柔らかさ、剛性などの物体の触覚特性を理解することを目的としている。
しかし、触覚データ収集はコストが高く、労働集約的であるため、この分野は未調査のままである。
我々は、視覚的に異なる物体が類似した表面テクスチャや材料特性を示すことを観察する。
例えば、革のソファと革のジャケットは外観が異なるが、同様の触覚特性を持っている。
このことは、触覚の理解は、直接触覚の監督がなくても、視覚データ中の物質的手がかりによってガイドできることを意味している。
本稿では,触覚的セマンティクスに富んだ視覚データを活用することで,視触覚知覚を改善する検索拡張フレームワークであるRA-Touchを紹介する。
我々は、触覚に焦点を当てた大規模な視覚データセットを慎重に再キャプチャし、従来の視覚データセットにない触覚セマンティクスにモデルがアクセスできるようにする。
これらの触覚を意識した外部記述を効果的に活用する上で、重要な課題が残っている。
RA-Touchは、触覚入力と整合した視覚的テキスト表現を取得し、それらを統合して、関連するテクスチャとマテリアルプロパティにフォーカスすることで、この問題に対処する。
本手法は,TVLベンチマークにおいて先行手法よりも優れており,触覚理解のための検索に基づく視覚的再利用の可能性を示す。
コードはhttps://aim-skku.github.io/RA-Touchで入手できる。
関連論文リスト
- RETRO: REthinking Tactile Representation Learning with Material PriOrs [4.938177645099319]
触覚表現学習プロセスに素材認識の先行性を導入する。
これらの先行は、異なる材料に特有の事前学習特性を表しており、モデルが表面テクスチャのニュアンスをよりよく捉え、一般化することができる。
提案手法は,多様な材料やテクスチャにまたがって,より正確で,文脈的にリッチな触覚フィードバックを可能にし,ロボット工学や触覚フィードバックシステム,材料編集などの実世界のアプリケーションの性能を向上させる。
論文 参考訳(メタデータ) (2025-05-20T13:06:19Z) - Temporal Binding Foundation Model for Material Property Recognition via Tactile Sequence Perception [2.3724852180691025]
触覚シーケンス理解のための時間的結合基盤モデルを用いた新しい手法を提案する。
提案システムは,人間の指先知覚と同様,触覚相互作用の連続的な性質を捉えている。
論文 参考訳(メタデータ) (2025-01-24T21:47:38Z) - Controllable Visual-Tactile Synthesis [28.03469909285511]
一つのスケッチから視覚と触覚の両方の出力を合成する条件生成モデルを開発した。
次に,電気接着型触覚デバイスに高品質な視覚・触覚出力を描画するパイプラインを導入する。
論文 参考訳(メタデータ) (2023-05-04T17:59:51Z) - Tactile-Filter: Interactive Tactile Perception for Part Mating [54.46221808805662]
人間は触覚と触覚に頼っている。
視覚ベースの触覚センサーは、様々なロボット認識や制御タスクに広く利用されている。
本稿では,視覚に基づく触覚センサを用いた対話的知覚手法を提案する。
論文 参考訳(メタデータ) (2023-03-10T16:27:37Z) - Touch and Go: Learning from Human-Collected Vision and Touch [16.139106833276]
我々はTouch and Goという,視覚と触覚のペアデータを用いたデータセットを提案する。
人間のデータ収集者は触覚センサーを使って自然環境の物体を探査する。
私たちのデータセットは、多数の"野生の"オブジェクトとシーンにまたがっています。
論文 参考訳(メタデータ) (2022-11-22T18:59:32Z) - ObjectFolder: A Dataset of Objects with Implicit Visual, Auditory, and
Tactile Representations [52.226947570070784]
両課題に対処する100のオブジェクトからなるデータセットであるObjectを,2つの重要なイノベーションで紹介する。
まず、オブジェクトは視覚的、聴覚的、触覚的なすべてのオブジェクトの知覚データをエンコードし、多数の多感覚オブジェクト認識タスクを可能にする。
第2に、Objectは統一されたオブジェクト中心のシミュレーションと、各オブジェクトの視覚的テクスチャ、触覚的読み出し、触覚的読み出しに暗黙的な表現を採用しており、データセットの使用が柔軟で共有が容易である。
論文 参考訳(メタデータ) (2021-09-16T14:00:59Z) - Dynamic Modeling of Hand-Object Interactions via Tactile Sensing [133.52375730875696]
本研究では,高分解能な触覚グローブを用いて,多種多様な物体に対して4種類のインタラクティブな動作を行う。
我々は,クロスモーダル学習フレームワーク上にモデルを構築し,視覚処理パイプラインを用いてラベルを生成し,触覚モデルを監督する。
この研究は、高密度触覚センシングによる手動物体相互作用における動的モデリングの一歩を踏み出す。
論文 参考訳(メタデータ) (2021-09-09T16:04:14Z) - Elastic Tactile Simulation Towards Tactile-Visual Perception [58.44106915440858]
触覚シミュレーションのための粒子の弾性相互作用(EIP)を提案する。
EIPは、触覚センサを協調粒子群としてモデル化し、接触時の粒子の変形を制御するために弾性特性を適用した。
さらに,触覚データと視覚画像間の情報融合を可能にする触覚知覚ネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-11T03:49:59Z) - Teaching Cameras to Feel: Estimating Tactile Physical Properties of
Surfaces From Images [4.666400601228301]
本稿では,視覚情報から触覚特性の集合を推定する課題を紹介する。
我々は400以上のマルチビュー画像列とそれに対応する触覚特性を持つ画像触覚データセットの1つを構築した。
対向目的と新規なビジュオ触覚関節分類損失からなるクロスモーダルフレームワークを開発した。
論文 参考訳(メタデータ) (2020-04-29T21:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。