Fugu-MT 論文翻訳(概要): Visual-Tactile Cross-Modal Data Generation using Residue-Fusion GAN with Feature-Matching and Perceptual Losses

論文の概要: Visual-Tactile Cross-Modal Data Generation using Residue-Fusion GAN with Feature-Matching and Perceptual Losses

arxiv url: http://arxiv.org/abs/2107.05468v1
Date: Mon, 12 Jul 2021 14:36:16 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-13 16:08:32.109692
Title: Visual-Tactile Cross-Modal Data Generation using Residue-Fusion GAN with Feature-Matching and Perceptual Losses
Title（参考訳）: 特徴マッチングと知覚損失を伴う残差拡散ganを用いた視覚触覚クロスモーダルデータ生成
Authors: Shaoyu Cai, Kening Zhu, Yuki Ban, Takuji Narumi
Abstract要約: 本稿では,GAN(Generative Adversarial Network)の枠組みを活用することによって,モーダルな視覚触覚データ生成のためのディープラーニングに基づくアプローチを提案する。本手法は, 材料表面の視覚像を視覚データとし, 触覚データとして表面のペンスライディング運動によって誘導される加速度センサ信号を用いる。我々は, 条件付きGAN (cGAN) 構造を残差融合 (RF) モジュールとともに採用し, 付加的特徴マッチング (FM) と知覚的損失を用いてモデルを訓練し, クロスモーダルデータ生成を実現する。
参考スコア（独自算出の注目度）: 13.947606247944597
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing psychophysical studies have revealed that the cross-modal visual-tactile perception is common for humans performing daily activities. However, it is still challenging to build the algorithmic mapping from one modality space to another, namely the cross-modal visual-tactile data translation/generation, which could be potentially important for robotic operation. In this paper, we propose a deep-learning-based approach for cross-modal visual-tactile data generation by leveraging the framework of the generative adversarial networks (GANs). Our approach takes the visual image of a material surface as the visual data, and the accelerometer signal induced by the pen-sliding movement on the surface as the tactile data. We adopt the conditional-GAN (cGAN) structure together with the residue-fusion (RF) module, and train the model with the additional feature-matching (FM) and perceptual losses to achieve the cross-modal data generation. The experimental results show that the inclusion of the RF module, and the FM and the perceptual losses significantly improves cross-modal data generation performance in terms of the classification accuracy upon the generated data and the visual similarity between the ground-truth and the generated data.
Abstract（参考訳）: 既存の精神物理学的な研究では、交叉視触覚は日常活動を行う人間に共通していることが示されている。しかし、ロボット操作にとって潜在的に重要な、あるモダリティ空間から別のモダリティ空間へのアルゴリズムマッピングを構築することは依然として困難である。本稿では,gans(generative adversarial networks)の枠組みを活用し,クロスモーダル視覚触覚データ生成のためのディープラーニング手法を提案する。本手法は, 材料表面の視覚像を視覚データとし, 触覚データとして表面のペンスライディング運動によって誘導される加速度センサ信号を用いる。我々は, 条件付きGAN (cGAN) 構造を残差融合 (RF) モジュールとともに採用し, 付加的特徴マッチング (FM) と知覚的損失を用いてモデルを訓練し, クロスモーダルデータ生成を実現する。実験結果から,RFモジュールとFMと知覚的損失は,生成したデータに対する分類精度と生成したデータとの視覚的類似性の観点から,クロスモーダルデータ生成性能を著しく向上させることが示された。

関連論文リスト

A Novel Diffusion Model for Pairwise Geoscience Data Generation with Unbalanced Training Dataset [8.453075713579631]
UB-Diff'はマルチモーダルなペア型科学データ生成のための新しい拡散モデルである。 1つの大きな革新は、1対2のエンコーダ・デコーダネットワーク構造であり、コラテント表現からペアのデータを確実に得ることができる。 OpenFWIデータセットの実験結果から,UB-DiffはFr'echet Inception Distance(FID)スコアとペア評価において,既存の技術よりも優れていた。
論文参考訳（メタデータ） (2025-01-01T19:49:38Z)
CognitionCapturer: Decoding Visual Stimuli From Human EEG Signal With Multimodal Information [61.1904164368732]
脳波信号の表現にマルチモーダルデータを完全に活用する統合フレームワークであるCognitionCapturerを提案する。具体的には、CognitionCapturerは、各モダリティに対してモダリティエキスパートを訓練し、EEGモダリティからモダリティ情報を抽出する。このフレームワークは生成モデルの微調整を一切必要とせず、より多くのモダリティを組み込むように拡張することができる。
論文参考訳（メタデータ） (2024-12-13T16:27:54Z)
DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文参考訳（メタデータ） (2024-03-20T04:58:03Z)
Representation Learning for Wearable-Based Applications in the Case of Missing Data [20.37256375888501]
実環境におけるマルチモーダルセンサデータは、データ品質が低く、データアノテーションが限られているため、依然として困難である。本稿では,不足するウェアラブルデータに対する表現学習について検討し,最新統計手法と比較する。本研究は,マスキングに基づく自己指導型学習タスクの設計と開発に関する知見を提供する。
論文参考訳（メタデータ） (2024-01-08T08:21:37Z)
A Generative Self-Supervised Framework using Functional Connectivity in fMRI Data [15.211387244155725]
機能的磁気共鳴イメージング(fMRI)データから抽出した機能的接続性(FC)ネットワークを訓練したディープニューラルネットワークが人気を博している。グラフニューラルネットワーク(GNN)のFCへの適用に関する最近の研究は、FCの時間変化特性を活用することにより、モデル予測の精度と解釈可能性を大幅に向上させることができることを示唆している。高品質なfMRIデータとそれに対応するラベルを取得するための高コストは、実環境において彼らのアプリケーションにハードルをもたらす。本研究では,動的FC内の時間情報を効果的に活用するためのSSL生成手法を提案する。
論文参考訳（メタデータ） (2023-12-04T16:14:43Z)
Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。 FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文参考訳（メタデータ） (2023-09-20T06:51:11Z)
Cross-modal Orthogonal High-rank Augmentation for RGB-Event Transformer-trackers [58.802352477207094]
本研究では,2つのモード間の分布ギャップを埋めるために,事前学習された視覚変換器(ViT)の潜在可能性を探る。本研究では,いくつかのトークンの特定のモダリティをランダムにマスキングし,異なるモダリティのトークン間の相互作用を積極的に行うマスクモデリング戦略を提案する。実験により,我々のプラグアンドプレイトレーニング強化技術は,追跡精度と成功率の両方の観点から,最先端のワンストリームと2つのトラッカーストリームを大幅に向上させることができることが示された。
論文参考訳（メタデータ） (2023-07-09T08:58:47Z)
Exploring Invariant Representation for Visible-Infrared Person Re-Identification [77.06940947765406]
異なるスペクトルを横断する歩行者にアイデンティティを関連付けることを目的とした、クロススペクトルの人物再識別は、モダリティの相違の主な課題に直面している。本稿では、ロバスト機能マイニングネットワーク(RFM)と呼ばれるエンドツーエンドのハイブリッド学習フレームワークにおいて、画像レベルと特徴レベルの両方の問題に対処する。 RegDBとSYSU-MM01という2つの標準的なクロススペクトル人物識別データセットの実験結果により,最先端の性能が示された。
論文参考訳（メタデータ） (2023-02-02T05:24:50Z)
A transfer learning enhanced the physics-informed neural network model for vortex-induced vibration [0.0]
本稿では、VIV(2D)を研究するために、物理インフォームドニューラルネットワーク(PINN)モデルを用いたトランスファーラーニングを提案する。物理インフォームドニューラルネットワークは、転送学習法と併用することにより、学習効率を高め、大量のデータセットを必要とせずに、ソースモデルからの共通特性知識による目標タスクの予測可能性を維持する。
論文参考訳（メタデータ） (2021-12-29T08:20:23Z)
Generative Partial Visual-Tactile Fused Object Clustering [81.17645983141773]
オブジェクトクラスタリングのためのGenerative Partial Visual-Tactile Fused(GPVTF)フレームワークを提案する。条件付きクロスモーダルクラスタリング生成逆ネットワークを開発し、一方のモダリティ条件を他方のモダリティ上で合成する。最後に、擬似ラベルに基づく2つのKL分割損失を用いて、対応するモダリティ固有エンコーダを更新する。
論文参考訳（メタデータ） (2020-12-28T02:37:03Z)
Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision Action Recognition [131.6328804788164]
本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。 SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
論文参考訳（メタデータ） (2020-09-01T03:38:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。