論文の概要: Multi-View Fusion Transformer for Sensor-Based Human Activity
Recognition
- arxiv url: http://arxiv.org/abs/2202.12949v1
- Date: Wed, 16 Feb 2022 07:15:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-06 13:13:36.386476
- Title: Multi-View Fusion Transformer for Sensor-Based Human Activity
Recognition
- Title(参考訳): センサを用いた人間行動認識のための多視点核融合トランス
- Authors: Yimu Wang, Kun Yu, Yan Wang, Hui Xue
- Abstract要約: センサに基づく人間活動認識(HAR)は、加速度計やジャイロスコープなどのマルチモーダルセンサから収集されたリッチな時系列データに基づいて、人間の活動を認識することを目的としている。
近年の深層学習手法は、時間的視点などのデータの一視点に焦点を合わせており、浅層学習法は、例えば統計的視点のような手工芸的特徴を利用する傾向にある。
本稿では,新しいアテンション機構とともに,MVFT(Multi-view fusion transformer)という新しい手法を提案する。
- 参考スコア(独自算出の注目度): 15.845205542668472
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As a fundamental problem in ubiquitous computing and machine learning,
sensor-based human activity recognition (HAR) has drawn extensive attention and
made great progress in recent years. HAR aims to recognize human activities
based on the availability of rich time-series data collected from multi-modal
sensors such as accelerometers and gyroscopes. However, recent deep learning
methods are focusing on one view of the data, i.e., the temporal view, while
shallow methods tend to utilize the hand-craft features for recognition, e.g.,
the statistics view. In this paper, to extract a better feature for advancing
the performance, we propose a novel method, namely multi-view fusion
transformer (MVFT) along with a novel attention mechanism. First, MVFT encodes
three views of information, i.e., the temporal, frequent, and statistical views
to generate multi-view features. Second, the novel attention mechanism uncovers
inner- and cross-view clues to catalyze mutual interactions between three views
for detailed relation modeling. Moreover, extensive experiments on two datasets
illustrate the superiority of our methods over several state-of-the-art
methods.
- Abstract(参考訳): ユビキタスコンピューティングと機械学習の根本的な問題として、センサベースの人間活動認識(HAR)が注目され、近年大きな進歩を遂げている。
harは加速度計やジャイロスコープなどのマルチモーダルセンサから収集された豊富な時系列データに基づいて、人間の活動を認識することを目指している。
しかし、近年の深層学習手法は、時間的視点(temporal view)というデータの1つの視点に焦点を絞っている一方、浅層学習法は、例えば統計的視点(statistic view)のような手工芸的特徴を利用する傾向がある。
本稿では,性能向上のための優れた特徴を抽出するため,新しいアテンション機構とともに,MVFT(Multi-view fusion transformer)と呼ばれる新しい手法を提案する。
まず、MVFTは3つの情報、すなわち時間的、頻繁、統計的なビューをエンコードしてマルチビューの特徴を生成する。
第二に、新しい注意機構は、詳細な関係モデリングのための3つのビュー間の相互相互作用を触媒する内的および横断的な手がかりを明らかにする。
さらに、2つのデータセットに関する広範な実験では、いくつかの最先端の方法よりも優れた方法が示されている。
関連論文リスト
- From CNNs to Transformers in Multimodal Human Action Recognition: A Survey [23.674123304219822]
人間の行動認識はコンピュータビジョンにおいて最も広く研究されている研究問題の1つである。
近年の研究では、マルチモーダルデータを用いてこの問題に対処することで性能が向上することが示されている。
視覚モデリングにおけるトランスフォーマーの最近の増加は、アクション認識タスクのパラダイムシフトを引き起こしている。
論文 参考訳(メタデータ) (2024-05-22T02:11:18Z) - Multi-view Action Recognition via Directed Gromov-Wasserstein Discrepancy [12.257725479880458]
行動認識はコンピュータビジョンにおける人気のある研究トピックの1つとなっている。
本稿では,アクションビデオの2つの異なる視点から2つの注意の類似性を計算する多視点アテンション整合性手法を提案する。
我々のアプローチでは、単一ビューデータセットのトレーニングにおいて、新しいビューからの機能を暗黙的にレンダリングするために、Neural Radiance Fieldというアイデアを適用しています。
論文 参考訳(メタデータ) (2024-05-02T14:43:21Z) - Multimodal Visual-Tactile Representation Learning through
Self-Supervised Contrastive Pre-Training [0.850206009406913]
MViTacは、コントラスト学習を利用して視覚と触覚を自己指導的に統合する新しい手法である。
両方の感覚入力を利用することで、MViTacは学習表現のモダリティ内およびモダリティ間損失を利用して、材料特性の分類を強化し、より適切な把握予測を行う。
論文 参考訳(メタデータ) (2024-01-22T15:11:57Z) - Two Approaches to Supervised Image Segmentation [55.616364225463066]
本研究は、深層学習とマルチセットニューロンのアプローチの比較実験を開発する。
ディープラーニングアプローチは、画像セグメンテーションの実行の可能性を確認した。
代替のマルチセット手法では、計算資源をほとんど必要とせずに精度を向上することができた。
論文 参考訳(メタデータ) (2023-07-19T16:42:52Z) - Multi-dataset Training of Transformers for Robust Action Recognition [75.5695991766902]
動作認識のための複数のデータセットをうまく一般化することを目的として,ロバストな特徴表現の課題について検討する。
本稿では、情報損失と投影損失という2つの新しい損失項を設計した、新しいマルチデータセットトレーニングパラダイムであるMultiTrainを提案する。
本研究では,Kineetics-400,Kineetics-700,Moments-in-Time,Activitynet,Some-something-v2の5つの課題データセットに対して,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2022-09-26T01:30:43Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - UMSNet: An Universal Multi-sensor Network for Human Activity Recognition [10.952666953066542]
本稿では,人間行動認識のためのユニバーサルマルチセンサネットワーク(UMSNet)を提案する。
特に,新しい軽量センサ残差ブロック(LSRブロック)を提案する。
我々のフレームワークは明確な構造を持ち、様々な種類のマルチモーダル時系列分類タスクに直接適用することができる。
論文 参考訳(メタデータ) (2022-05-24T03:29:54Z) - Self-Attention Neural Bag-of-Features [103.70855797025689]
我々は最近導入された2D-Attentionの上に構築し、注意学習方法論を再構築する。
本稿では,関連情報を強調した2次元目視マスクを学習する機能・時間的アテンション機構を提案する。
論文 参考訳(メタデータ) (2022-01-26T17:54:14Z) - Inertial Sensor Data To Image Encoding For Human Action Recognition [0.0]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンの分野で成功したディープラーニングモデルである。
本稿では,慣性センサデータから活動画像への変換に4種類の空間領域法を用いる。
マルチモーダル・フュージョン・フレームワークを構築するために,2つの空間領域フィルタを結合して各種類のアクティビティ・イメージをマルチモーダル化した。
論文 参考訳(メタデータ) (2021-05-28T01:22:52Z) - Collaborative Attention Mechanism for Multi-View Action Recognition [75.33062629093054]
本稿では,多視点行動認識問題を解決するための協調的注意機構(CAM)を提案する。
提案したCAMは,多視点間での注意差を検出し,フレームレベルの情報を適応的に統合し,相互に利益をもたらす。
4つのアクションデータセットの実験では、提案されたCAMは、ビュー毎により良い結果を得るとともに、マルチビューのパフォーマンスも向上する。
論文 参考訳(メタデータ) (2020-09-14T17:33:10Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。