論文の概要: Surformer v1: Transformer-Based Surface Classification Using Tactile and Vision Features
- arxiv url: http://arxiv.org/abs/2508.06566v1
- Date: Thu, 07 Aug 2025 00:59:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.442466
- Title: Surformer v1: Transformer-Based Surface Classification Using Tactile and Vision Features
- Title(参考訳): Surformer v1: 触覚と視覚特徴を用いたトランスフォーマーベースの表面分類
- Authors: Manish Kansana, Elias Hossain, Shahram Rahimi, Noorbakhsh Amiri Golilarz,
- Abstract要約: Surformer v1は、構造化された触覚特徴とResNet-50を介して抽出されたPCAによる視覚的埋め込みを用いて、表面分類のために設計されたトランスフォーマーベースのアーキテクチャである。
このモデルは、触覚固有のエンコーダとモーダルなアテンション層を統合し、視覚とタッチの間のリッチな相互作用を可能にする。
我々はSurformer v1とMultimodal CNNの両方を訓練し、特徴ベースと画像ベースのマルチモーダル学習が分類精度と計算効率に与える影響について検討した。
- 参考スコア(独自算出の注目度): 1.124958340749622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Surface material recognition is a key component in robotic perception and physical interaction, particularly when leveraging both tactile and visual sensory inputs. In this work, we propose Surformer v1, a transformer-based architecture designed for surface classification using structured tactile features and PCA-reduced visual embeddings extracted via ResNet-50. The model integrates modality-specific encoders with cross-modal attention layers, enabling rich interactions between vision and touch. Currently, state-of-the-art deep learning models for vision tasks have achieved remarkable performance. With this in mind, our first set of experiments focused exclusively on tactile-only surface classification. Using feature engineering, we trained and evaluated multiple machine learning models, assessing their accuracy and inference time. We then implemented an encoder-only Transformer model tailored for tactile features. This model not only achieved the highest accuracy but also demonstrated significantly faster inference time compared to other evaluated models, highlighting its potential for real-time applications. To extend this investigation, we introduced a multimodal fusion setup by combining vision and tactile inputs. We trained both Surformer v1 (using structured features) and Multimodal CNN (using raw images) to examine the impact of feature-based versus image-based multimodal learning on classification accuracy and computational efficiency. The results showed that Surformer v1 achieved 99.4% accuracy with an inference time of 0.77 ms, while the Multimodal CNN achieved slightly higher accuracy but required significantly more inference time. These findings suggest Surformer v1 offers a compelling balance between accuracy, efficiency, and computational cost for surface material recognition.
- Abstract(参考訳): 表面物質認識は、特に触覚と視覚の両方の感覚入力を利用する場合、ロボット知覚と物理的相互作用において重要な要素である。
本研究では,ResNet-50により抽出された構造化触覚特徴とPCAによる視覚的埋め込みを用いた表面分類のためのトランスフォーマーベースアーキテクチャであるSurformer v1を提案する。
このモデルは、モダリティ固有のエンコーダとクロスモーダルなアテンション層を統合し、視覚とタッチの間のリッチな相互作用を可能にする。
現在、ビジョンタスクのための最先端のディープラーニングモデルは、素晴らしいパフォーマンスを達成しています。
このことを念頭に置いて、私たちの最初の実験は触覚のみの表面分類にのみ焦点をあてたものです。
機能工学を用いて、複数の機械学習モデルをトレーニングし、評価し、精度と推論時間を評価した。
次に,触覚機能に適したエンコーダのみのトランスフォーマーモデルを実装した。
このモデルは高い精度を達成しただけでなく、他の評価モデルと比較してはるかに高速な推論時間を示し、リアルタイムアプリケーションの可能性を強調した。
本研究では,視覚と触覚入力を組み合わせたマルチモーダル・フュージョン・セットアップを提案する。
我々は,Surformer v1(構造化特徴を用いた)とMultimodal CNN(生画像を用いた)の両方を訓練し,特徴ベースと画像ベースマルチモーダル学習が分類精度と計算効率に与える影響を検討した。
その結果、Surformer v1は0.77msの推論時間で99.4%の精度を達成し、Multimodal CNNはわずかに高い精度で推測時間を必要とした。
これらの結果から,Surformer v1は表面材料認識の精度,効率,計算コストのバランスを保っていることが示唆された。
関連論文リスト
- Multi-modal Transfer Learning for Dynamic Facial Emotion Recognition in the Wild [0.14999444543328289]
顔の表情認識(FER)はコンピュータビジョンのサブセットであり、人間とコンピュータの相互作用、医療、カスタマーサービスに重要な応用がある。
本稿では,ビデオベースFERデータセットの性能向上のために,マルチモーダルトランスファー学習を用いることを検討した。
論文 参考訳(メタデータ) (2025-04-30T01:09:11Z) - A Comparative Survey of Vision Transformers for Feature Extraction in Texture Analysis [9.687982148528187]
畳み込みニューラルネットワーク(CNN)は現在、最高のテクスチャ分析アプローチの1つである。
視覚変換器(ViT)は、物体認識などのタスクにおいてCNNの性能を上回っている。
この研究は、テクスチャに依存するタスクに移行する際に、事前訓練された様々なViTアーキテクチャを探索する。
論文 参考訳(メタデータ) (2024-06-10T09:48:13Z) - CViT: Continuous Vision Transformer for Operator Learning [24.1795082775376]
連続ビジョントランスフォーマー(Continuous Vision Transformer、CViT)は、コンピュータビジョンの進歩を活用して複雑な物理システムを学ぶ際の課題に対処する、新しい神経オペレーターアーキテクチャである。
CViTは、ビジョントランスフォーマーエンコーダ、新しいグリッドベースの座標埋め込み、マルチスケール依存関係を効果的にキャプチャするクエリワイドのクロスアテンション機構を組み合わせたものである。
本研究では, 流体力学, 気候モデル, 反応拡散過程を含む多種多様な偏微分方程式(PDE)システムにおけるCViTの有効性を実証する。
論文 参考訳(メタデータ) (2024-05-22T21:13:23Z) - MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。
事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。
SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。
我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-20T09:17:22Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Model LEGO: Creating Models Like Disassembling and Assembling Building Blocks [53.09649785009528]
本稿では,新しいモデルを得るためのトレーニングを必要としないパラダイムについて検討する。
生体視覚系における受容野にインスパイアされたCNNの誕生と同様、モデル分解と組み立てを提案する。
モデル組立には、特定のタスクに適した新しいモデルを構築するために、アライメントパディング戦略とパラメータスケーリング戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T05:27:28Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。