論文の概要: VisTaNet: Attention Guided Deep Fusion for Surface Roughness
Classification
- arxiv url: http://arxiv.org/abs/2209.08516v1
- Date: Sun, 18 Sep 2022 09:37:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 16:42:08.956821
- Title: VisTaNet: Attention Guided Deep Fusion for Surface Roughness
Classification
- Title(参考訳): VisTaNet:表面粗さ分類のための注意深い核融合
- Authors: Prasanna Kumar Routray, Aditya Sanjiv Kanade, Jay Bhanushali,
Manivannan Muniyandi
- Abstract要約: 本稿では,既存の触覚データセットを付加した視覚データセットを提案する。
4種類の融合戦略を用いて視覚・触覚データを融合する新しい深層融合アーキテクチャを提案する。
本モデルでは触覚のみに比べて表面粗さ分類精度が97.22%向上した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human texture perception is a weighted average of multi-sensory inputs:
visual and tactile. While the visual sensing mechanism extracts global
features, the tactile mechanism complements it by extracting local features.
The lack of coupled visuotactile datasets in the literature is a challenge for
studying multimodal fusion strategies analogous to human texture perception.
This paper presents a visual dataset that augments an existing tactile dataset.
We propose a novel deep fusion architecture that fuses visual and tactile data
using four types of fusion strategies: summation, concatenation, max-pooling,
and attention. Our model shows significant performance improvements (97.22%) in
surface roughness classification accuracy over tactile only (SVM - 92.60%) and
visual only (FENet-50 - 85.01%) architectures. Among the several fusion
techniques, attention-guided architecture results in better classification
accuracy. Our study shows that analogous to human texture perception, the
proposed model chooses a weighted combination of the two modalities (visual and
tactile), thus resulting in higher surface roughness classification accuracy;
and it chooses to maximize the weightage of the tactile modality where the
visual modality fails and vice-versa.
- Abstract(参考訳): ヒトのテクスチャ知覚は、視覚と触覚のマルチセンサー入力の重み付け平均である。
視覚センシング機構はグローバルな特徴を抽出するが、触覚機構は局所的な特徴を抽出することでそれを補完する。
文献におけるビズオタクティルデータセットの欠如は、人間のテクスチャ知覚に類似したマルチモーダル融合戦略を研究する上での課題である。
本稿では,既存の触覚データセットを補完する視覚データセットを提案する。
本稿では,要約,連結,最大プール,注意という4種類の融合戦略を用いて,視覚と触覚データを融合する新しい深層融合アーキテクチャを提案する。
本モデルでは,触覚のみ (SVM - 92.60%) と視覚のみ (FENet-50 - 85.01%) で表面粗さ分類精度が97.22%向上した。
いくつかの融合技術の中で、注意誘導アーキテクチャはより良い分類精度をもたらす。
本研究は,人間のテクスチャ知覚に類似し,提案するモデルは2つのモダリティ(視覚と触覚)の重み付けの組み合わせを選択し,それによって表面粗さの分類精度が向上することを示し,視覚モダリティが失敗する触覚モダリティの重み付けを最大化する。
関連論文リスト
- Dynamic Reconstruction of Hand-Object Interaction with Distributed Force-aware Contact Representation [52.36691633451968]
ViTaM-Dは動的手動物体相互作用再構成のための視覚触覚フレームワークである。
DF-Fieldは分散力認識型接触表現モデルである。
剛性および変形性のある物体再構成におけるViTaM-Dの優れた性能について検討した。
論文 参考訳(メタデータ) (2024-11-14T16:29:45Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Visual-tactile Fusion for Transparent Object Grasping in Complex Backgrounds [12.449232689517538]
透明物体把握のための視覚触覚融合フレームワークを提案する。
把握位置検出、触覚キャリブレーション、視覚触覚融合に基づく分類が含まれる。
提案フレームワークは,視覚と触覚の利点を相乗化し,透明物体の把握効率を大幅に向上させる。
論文 参考訳(メタデータ) (2022-11-30T02:27:41Z) - Tactile-ViewGCN: Learning Shape Descriptor from Tactile Data using Graph
Convolutional Network [0.4189643331553922]
触覚データを用いたオブジェクト分類に関するこれまでの研究を改善することに焦点を当てている。
本稿では,触覚的特徴を階層的に集約する新しい手法Tactile-ViewGCNを提案する。
提案手法は,STAGデータセットにおいて81.82%の精度で過去の手法より優れていた。
論文 参考訳(メタデータ) (2022-03-12T05:58:21Z) - MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis [84.7287684402508]
マルチモーダル融合に対する最近のディープラーニングアプローチは、ハイレベルおよびミドルレベルの潜在モダリティ表現のボトムアップ融合に依存している。
人間の知覚モデルでは、高レベルの表現が感覚入力の知覚に影響を及ぼすトップダウン融合の重要性を強調している。
本稿では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-01-24T17:48:04Z) - Dynamic Modeling of Hand-Object Interactions via Tactile Sensing [133.52375730875696]
本研究では,高分解能な触覚グローブを用いて,多種多様な物体に対して4種類のインタラクティブな動作を行う。
我々は,クロスモーダル学習フレームワーク上にモデルを構築し,視覚処理パイプラインを用いてラベルを生成し,触覚モデルを監督する。
この研究は、高密度触覚センシングによる手動物体相互作用における動的モデリングの一歩を踏み出す。
論文 参考訳(メタデータ) (2021-09-09T16:04:14Z) - Elastic Tactile Simulation Towards Tactile-Visual Perception [58.44106915440858]
触覚シミュレーションのための粒子の弾性相互作用(EIP)を提案する。
EIPは、触覚センサを協調粒子群としてモデル化し、接触時の粒子の変形を制御するために弾性特性を適用した。
さらに,触覚データと視覚画像間の情報融合を可能にする触覚知覚ネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-11T03:49:59Z) - Generative Partial Visual-Tactile Fused Object Clustering [81.17645983141773]
オブジェクトクラスタリングのためのGenerative Partial Visual-Tactile Fused(GPVTF)フレームワークを提案する。
条件付きクロスモーダルクラスタリング生成逆ネットワークを開発し、一方のモダリティ条件を他方のモダリティ上で合成する。
最後に、擬似ラベルに基づく2つのKL分割損失を用いて、対応するモダリティ固有エンコーダを更新する。
論文 参考訳(メタデータ) (2020-12-28T02:37:03Z) - Spatio-temporal Attention Model for Tactile Texture Recognition [25.06942319117782]
触覚テクスチャ認識のための新しい時空間注意モデル(STAM)を提案する。
提案したSTAMは,それぞれの触覚テクスチャの空間的焦点と触覚シーケンスの時間的相関の両方に注意を払っている。
100種類の異なる布のテクスチャを識別する実験では,空間的,時間的に選択的な注意が認識精度を大幅に向上させた。
論文 参考訳(メタデータ) (2020-08-10T22:32:34Z) - TactileSGNet: A Spiking Graph Neural Network for Event-based Tactile
Object Recognition [17.37142241982902]
フレキシブルでイベント駆動の電子スキンの新しい進歩は、すぐに人間に似たタッチ認識能力を持つロボットを養うかもしれない。
これらのユニークな特徴は、触覚学習には適さない畳み込み特徴抽出器のような、現在のディープラーニングアプローチをもたらす可能性がある。
イベントベース触覚物体認識のための新しいスパイキンググラフニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-01T03:35:15Z) - Teaching Cameras to Feel: Estimating Tactile Physical Properties of
Surfaces From Images [4.666400601228301]
本稿では,視覚情報から触覚特性の集合を推定する課題を紹介する。
我々は400以上のマルチビュー画像列とそれに対応する触覚特性を持つ画像触覚データセットの1つを構築した。
対向目的と新規なビジュオ触覚関節分類損失からなるクロスモーダルフレームワークを開発した。
論文 参考訳(メタデータ) (2020-04-29T21:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。