論文の概要: Visual-Tactile Cross-Modal Data Generation using Residue-Fusion GAN with
Feature-Matching and Perceptual Losses
- arxiv url: http://arxiv.org/abs/2107.05468v1
- Date: Mon, 12 Jul 2021 14:36:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-13 16:08:32.109692
- Title: Visual-Tactile Cross-Modal Data Generation using Residue-Fusion GAN with
Feature-Matching and Perceptual Losses
- Title(参考訳): 特徴マッチングと知覚損失を伴う残差拡散ganを用いた視覚触覚クロスモーダルデータ生成
- Authors: Shaoyu Cai, Kening Zhu, Yuki Ban, Takuji Narumi
- Abstract要約: 本稿では,GAN(Generative Adversarial Network)の枠組みを活用することによって,モーダルな視覚触覚データ生成のためのディープラーニングに基づくアプローチを提案する。
本手法は, 材料表面の視覚像を視覚データとし, 触覚データとして表面のペンスライディング運動によって誘導される加速度センサ信号を用いる。
我々は, 条件付きGAN (cGAN) 構造を残差融合 (RF) モジュールとともに採用し, 付加的特徴マッチング (FM) と知覚的損失を用いてモデルを訓練し, クロスモーダルデータ生成を実現する。
- 参考スコア(独自算出の注目度): 13.947606247944597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing psychophysical studies have revealed that the cross-modal
visual-tactile perception is common for humans performing daily activities.
However, it is still challenging to build the algorithmic mapping from one
modality space to another, namely the cross-modal visual-tactile data
translation/generation, which could be potentially important for robotic
operation. In this paper, we propose a deep-learning-based approach for
cross-modal visual-tactile data generation by leveraging the framework of the
generative adversarial networks (GANs). Our approach takes the visual image of
a material surface as the visual data, and the accelerometer signal induced by
the pen-sliding movement on the surface as the tactile data. We adopt the
conditional-GAN (cGAN) structure together with the residue-fusion (RF) module,
and train the model with the additional feature-matching (FM) and perceptual
losses to achieve the cross-modal data generation. The experimental results
show that the inclusion of the RF module, and the FM and the perceptual losses
significantly improves cross-modal data generation performance in terms of the
classification accuracy upon the generated data and the visual similarity
between the ground-truth and the generated data.
- Abstract(参考訳): 既存の精神物理学的な研究では、交叉視触覚は日常活動を行う人間に共通していることが示されている。
しかし、ロボット操作にとって潜在的に重要な、あるモダリティ空間から別のモダリティ空間へのアルゴリズムマッピングを構築することは依然として困難である。
本稿では,gans(generative adversarial networks)の枠組みを活用し,クロスモーダル視覚触覚データ生成のためのディープラーニング手法を提案する。
本手法は, 材料表面の視覚像を視覚データとし, 触覚データとして表面のペンスライディング運動によって誘導される加速度センサ信号を用いる。
我々は, 条件付きGAN (cGAN) 構造を残差融合 (RF) モジュールとともに採用し, 付加的特徴マッチング (FM) と知覚的損失を用いてモデルを訓練し, クロスモーダルデータ生成を実現する。
実験結果から,RFモジュールとFMと知覚的損失は,生成したデータに対する分類精度と生成したデータとの視覚的類似性の観点から,クロスモーダルデータ生成性能を著しく向上させることが示された。
関連論文リスト
- Cross-modal Orthogonal High-rank Augmentation for RGB-Event
Transformer-trackers [58.802352477207094]
本研究では,2つのモード間の分布ギャップを埋めるために,事前学習された視覚変換器(ViT)の潜在可能性を探る。
本研究では,いくつかのトークンの特定のモダリティをランダムにマスキングし,異なるモダリティのトークン間の相互作用を積極的に行うマスクモデリング戦略を提案する。
実験により,我々のプラグアンドプレイトレーニング強化技術は,追跡精度と成功率の両方の観点から,最先端のワンストリームと2つのトラッカーストリームを大幅に向上させることができることが示された。
論文 参考訳(メタデータ) (2023-07-09T08:58:47Z) - SGED: A Benchmark dataset for Performance Evaluation of Spiking Gesture
Emotion Recognition [12.396844568607522]
我々は、既存のデータセットの分析に基づいて、新しい同質なマルチモーダルジェスチャー感情認識データセットをラベル付けする。
本稿では,このデータセットに基づく擬似二重フローネットワークを提案し,このデータセットの適用可能性を検証する。
論文 参考訳(メタデータ) (2023-04-28T09:32:09Z) - Exploring Invariant Representation for Visible-Infrared Person
Re-Identification [77.06940947765406]
異なるスペクトルを横断する歩行者にアイデンティティを関連付けることを目的とした、クロススペクトルの人物再識別は、モダリティの相違の主な課題に直面している。
本稿では、ロバスト機能マイニングネットワーク(RFM)と呼ばれるエンドツーエンドのハイブリッド学習フレームワークにおいて、画像レベルと特徴レベルの両方の問題に対処する。
RegDBとSYSU-MM01という2つの標準的なクロススペクトル人物識別データセットの実験結果により,最先端の性能が示された。
論文 参考訳(メタデータ) (2023-02-02T05:24:50Z) - Mixed Effects Neural ODE: A Variational Approximation for Analyzing the
Dynamics of Panel Data [50.23363975709122]
パネルデータ解析に(固定・ランダムな)混合効果を取り入れたME-NODEという確率モデルを提案する。
我々は、Wong-Zakai定理によって提供されるSDEの滑らかな近似を用いて、我々のモデルを導出できることを示す。
次に、ME-NODEのためのエビデンスに基づく下界を導出し、(効率的な)トレーニングアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-02-18T22:41:51Z) - A transfer learning enhanced the physics-informed neural network model
for vortex-induced vibration [0.0]
本稿では、VIV(2D)を研究するために、物理インフォームドニューラルネットワーク(PINN)モデルを用いたトランスファーラーニングを提案する。
物理インフォームドニューラルネットワークは、転送学習法と併用することにより、学習効率を高め、大量のデータセットを必要とせずに、ソースモデルからの共通特性知識による目標タスクの予測可能性を維持する。
論文 参考訳(メタデータ) (2021-12-29T08:20:23Z) - GAN-Supervised Dense Visual Alignment [95.37027391102684]
本稿では,識別モデル学習のためのフレームワークであるGAN-Supervised Learningと,GAN生成した学習データをエンドツーエンドで共同で学習する手法を提案する。
従来のCongealing法にインスパイアされた我々のGANgealingアルゴリズムは、Spatial Transformerを訓練し、不整合データに基づいて訓練されたGANのランダムなサンプルを共通の目標モードにマッピングする。
論文 参考訳(メタデータ) (2021-12-09T18:59:58Z) - Generative Partial Visual-Tactile Fused Object Clustering [81.17645983141773]
オブジェクトクラスタリングのためのGenerative Partial Visual-Tactile Fused(GPVTF)フレームワークを提案する。
条件付きクロスモーダルクラスタリング生成逆ネットワークを開発し、一方のモダリティ条件を他方のモダリティ上で合成する。
最後に、擬似ラベルに基づく2つのKL分割損失を用いて、対応するモダリティ固有エンコーダを更新する。
論文 参考訳(メタデータ) (2020-12-28T02:37:03Z) - Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision
Action Recognition [131.6328804788164]
本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。
SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
論文 参考訳(メタデータ) (2020-09-01T03:38:31Z) - Learning the sense of touch in simulation: a sim-to-real strategy for
vision-based tactile sensing [1.9981375888949469]
本稿では,3次元接触力分布の再構成を目的とした,視覚に基づく触覚センサについて述べる。
シミュレーションデータから完全に調整されたディープニューラルネットワークをトレーニングするための戦略が提案されている。
結果として得られる学習アーキテクチャは、さらなるトレーニングをすることなく、複数の触覚センサ間で直接転送可能であり、実際のデータに対して正確な予測が得られます。
論文 参考訳(メタデータ) (2020-03-05T14:17:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。