Fugu-MT 論文翻訳(概要): Inertial Sensor Data To Image Encoding For Human Action Recognition

論文の概要: Inertial Sensor Data To Image Encoding For Human Action Recognition

arxiv url: http://arxiv.org/abs/2105.13533v1
Date: Fri, 28 May 2021 01:22:52 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-31 21:44:29.146510
Title: Inertial Sensor Data To Image Encoding For Human Action Recognition
Title（参考訳）: 人間の行動認識のための画像符号化のための慣性センサデータ
Authors: Zeeshan Ahmad, Naimul Khan
Abstract要約: 畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンの分野で成功したディープラーニングモデルである。本稿では,慣性センサデータから活動画像への変換に4種類の空間領域法を用いる。マルチモーダル・フュージョン・フレームワークを構築するために,2つの空間領域フィルタを結合して各種類のアクティビティ・イメージをマルチモーダル化した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Convolutional Neural Networks (CNNs) are successful deep learning models in the field of computer vision. To get the maximum advantage of CNN model for Human Action Recognition (HAR) using inertial sensor data, in this paper, we use 4 types of spatial domain methods for transforming inertial sensor data to activity images, which are then utilized in a novel fusion framework. These four types of activity images are Signal Images (SI), Gramian Angular Field (GAF) Images, Markov Transition Field (MTF) Images and Recurrence Plot (RP) Images. Furthermore, for creating a multimodal fusion framework and to exploit activity image, we made each type of activity images multimodal by convolving with two spatial domain filters : Prewitt filter and High-boost filter. Resnet-18, a CNN model, is used to learn deep features from multi-modalities. Learned features are extracted from the last pooling layer of each ReNet and then fused by canonical correlation based fusion (CCF) for improving the accuracy of human action recognition. These highly informative features are served as input to a multiclass Support Vector Machine (SVM). Experimental results on three publicly available inertial datasets show the superiority of the proposed method over the current state-of-the-art.
Abstract（参考訳）: 畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンの分野で成功したディープラーニングモデルである。本稿では,慣性センサデータを用いた人間行動認識(HAR)のためのCNNモデルの最大限の利点を得るために,慣性センサデータを活動画像に変換するための空間領域法を4種類使用し,それを新しい融合フレームワークで活用する。これら4種類のアクティビティイメージは、Signal Images (SI)、Gramian Angular Field (GAF) Images、Markov Transition Field (MTF) Images、Recurrence Plot (RP) Imagesである。さらに,マルチモーダル融合フレームワークの作成と活動画像の活用のために,プリウィットフィルタとハイブーストフィルタの2つの空間領域フィルタを畳み込み,各タイプの活動画像のマルチモーダル化を行った。 CNNモデルであるResnet-18は、マルチモーダルから深い特徴を学ぶために使用される。各ReNetの最終プーリング層から学習した特徴を抽出し、標準相関ベース融合(CCF)により融合し、人間の行動認識の精度を向上させる。これらの高情報機能は、マルチクラスサポートベクトルマシン(SVM)への入力として提供される。 3つの公開慣性データセットの実験結果から,提案手法が現状よりも優れていることが示された。

関連論文リスト

Multimodal-Aware Fusion Network for Referring Remote Sensing Image Segmentation [7.992331117310217]
リモートセンシング画像セグメンテーション(RRSIS)は、リモートセンシング画像セグメンテーションにおける新しい視覚課題である。我々は,2つのモード間の微粒なアライメントと融合を実現するために,マルチモーダル・アウェア・フュージョン・ネットワーク(MAFN)を設計する。
論文参考訳（メタデータ） (2025-03-14T08:31:21Z)
MATCNN: Infrared and Visible Image Fusion Method Based on Multi-scale CNN with Attention Transformer [21.603763071331667]
本稿では,アテンショントランスフォーマを用いたマルチスケール畳み込みニューラルネットワーク(MATCNN)に基づく,新しいクロスモーダル画像融合手法を提案する。 MATCNNは、MSFM(Multi-scale fusion Module)を用いて異なるスケールで局所的特徴を抽出し、グローバル特徴抽出モジュール(GFEM)を用いてグローバル特徴を抽出する。情報マスクを用いて画像内の関連する詳細をラベル付けし、融合画像中の可視画像における赤外線画像および背景テクスチャにおける重要な情報保存の比率を高める。
論文参考訳（メタデータ） (2025-02-04T03:09:54Z)
DA-HFNet: Progressive Fine-Grained Forgery Image Detection and Localization Based on Dual Attention [12.36906630199689]
DA-HFNet鍛造画像データセットをテキストまたは画像支援GANおよび拡散モデルで作成する。我々のゴールは、階層的なプログレッシブネットワークを使用して、異なるスケールの偽造物を検出およびローカライゼーションするために捕獲することである。
論文参考訳（メタデータ） (2024-06-03T16:13:33Z)
Rethinking Transformers Pre-training for Multi-Spectral Satellite Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文参考訳（メタデータ） (2024-03-08T16:18:04Z)
Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。 5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文参考訳（メタデータ） (2023-08-24T03:50:37Z)
Attention Mechanism for Contrastive Learning in GAN-based Image-to-Image Translation [3.90801108629495]
本稿では,異なる領域にまたがって高品質な画像を生成可能なGANモデルを提案する。実世界から取得した画像データと3Dゲームからのシミュレーション画像を用いて、Contrastive Learningを利用してモデルを自己指導的に訓練する。
論文参考訳（メタデータ） (2023-02-23T14:23:23Z)
Semantic Labeling of High Resolution Images Using EfficientUNets and Transformers [5.177947445379688]
畳み込みニューラルネットワークとディープトランスを組み合わせた新しいセグメンテーションモデルを提案する。提案手法は,最先端技術と比較してセグメント化精度が向上することを示す。
論文参考訳（メタデータ） (2022-06-20T12:03:54Z)
Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文参考訳（メタデータ） (2022-04-19T17:59:45Z)
M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文参考訳（メタデータ） (2021-04-20T05:43:44Z)
CNN based Multistage Gated Average Fusion (MGAF) for Human Action Recognition Using Depth and Inertial Sensors [1.52292571922932]
畳み込みニューラルネットワーク(CNN)は、アーキテクチャのすべてのレイヤから機能を抽出し、融合するためのレバレッジを提供する。我々は,CNNの全層から特徴を抽出し,融合する多段Gated Average Fusion (MGAF) ネットワークを提案する。
論文参考訳（メタデータ） (2020-10-29T11:49:13Z)
DoFE: Domain-oriented Feature Embedding for Generalizable Fundus Image Segmentation on Unseen Datasets [96.92018649136217]
対象ドメインに対するCNNの一般化能力を向上させるために,新しいドメイン指向特徴埋め込み(DoFE)フレームワークを提案する。私たちのDoFEフレームワークは、マルチソースドメインから学んだ追加のドメイン事前知識で、画像機能を動的に強化します。本フレームワークは、未確認データセットのセグメンテーション結果を満足して生成し、他の領域の一般化やネットワークの正規化手法を超越する。
論文参考訳（メタデータ） (2020-10-13T07:28:39Z)
Towards Improved Human Action Recognition Using Convolutional Neural Networks and Multimodal Fusion of Depth and Inertial Sensor Data [1.52292571922932]
本稿では,深度と慣性センサデータの融合によるヒューマンアクション認識(HAR)の精度向上を試みる。我々は、深度データを逐次フロントビューイメージ(SFI)に変換し、これらの画像上でトレーニング済みのAlexNetを微調整する。慣性データを信号画像(SI)に変換し、これらの画像上で別の畳み込みニューラルネットワーク(CNN)を訓練する。
論文参考訳（メタデータ） (2020-08-22T03:41:34Z)
Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文参考訳（メタデータ） (2020-03-15T11:04:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。