論文の概要: Vision and Inertial Sensing Fusion for Human Action Recognition : A
Review
- arxiv url: http://arxiv.org/abs/2008.00380v1
- Date: Sun, 2 Aug 2020 02:06:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 19:39:26.557182
- Title: Vision and Inertial Sensing Fusion for Human Action Recognition : A
Review
- Title(参考訳): 人間の行動認識のためのビジョンと慣性センシングフュージョン : レビュー
- Authors: Sharmin Majumder, Nasser Kehtarnavaz
- Abstract要約: 人間の行動認識は、ビデオ監視、人間のコンピュータインタラクション、補助的な生活、ゲームなど、多くのアプリケーションで使われている。
多くの論文で、視覚と慣性感覚の融合は、それぞれの知覚モダリティが個別に使用される状況と比較して、認識精度を向上させることが示されている。
本稿では,人間の行動認識を行うために,融合フレームワーク内で視覚と慣性センシングを同時に使用する論文について調査する。
- 参考スコア(独自算出の注目度): 2.0813318162800702
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human action recognition is used in many applications such as video
surveillance, human computer interaction, assistive living, and gaming. Many
papers have appeared in the literature showing that the fusion of vision and
inertial sensing improves recognition accuracies compared to the situations
when each sensing modality is used individually. This paper provides a survey
of the papers in which vision and inertial sensing are used simultaneously
within a fusion framework in order to perform human action recognition. The
surveyed papers are categorized in terms of fusion approaches, features,
classifiers, as well as multimodality datasets considered. Challenges as well
as possible future directions are also stated for deploying the fusion of these
two sensing modalities under realistic conditions.
- Abstract(参考訳): 人間の行動認識は、ビデオ監視、人間のコンピュータインタラクション、補助生活、ゲームなど、多くのアプリケーションで使われている。
視覚と慣性センシングの融合は、各センシングモダリティが個別に使用される状況と比較して認識能力を向上させることを示す多くの論文が文献に載っている。
本稿では,人間の行動認識を行うために,視覚と慣性センシングが融合フレームワーク内で同時に使用される論文の調査を行う。
調査した論文は、融合アプローチ、特徴、分類器、および考慮されたマルチモダリティデータセットの観点で分類される。
現実的な条件下でこれらの2つのセンシングモダリティの融合を展開するための課題と将来の方向性も述べられている。
関連論文リスト
- Explicit Interaction for Fusion-Based Place Recognition [23.894557966812727]
本稿では,2つのモードの明示的な相互作用を実現するために,EINetと呼ばれる新しい融合型ネットワークを提案する。
我々はnuScenesデータセットに基づく位置認識タスクのための新しいベンチマークを開発する。
我々のEINetは、最先端のフュージョンベースの位置認識アプローチと比較して、認識性能とソリッド・ジェネライゼーション能力に優れています。
論文 参考訳(メタデータ) (2024-02-27T07:19:50Z) - Multimodal Visual-Tactile Representation Learning through
Self-Supervised Contrastive Pre-Training [0.850206009406913]
MViTacは、コントラスト学習を利用して視覚と触覚を自己指導的に統合する新しい手法である。
両方の感覚入力を利用することで、MViTacは学習表現のモダリティ内およびモダリティ間損失を利用して、材料特性の分類を強化し、より適切な把握予測を行う。
論文 参考訳(メタデータ) (2024-01-22T15:11:57Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Generating Human-Centric Visual Cues for Human-Object Interaction
Detection via Large Vision-Language Models [59.611697856666304]
人-物対検出(Human-object Interaction:HOI)は、人-物対を検出し、その相互作用を予測することを目的とする。
我々はVLMを用いた3つのプロンプトを提案し、人間の複数の視点から画像内で人間中心の視覚的手がかりを生成する。
我々は,マルチトワーアーキテクチャを用いたトランスフォーマーベースのマルチモーダル融合モジュールを開発し,視覚的キュー機能をインスタンスと対話デコーダに統合する。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - A Symbolic Representation of Human Posture for Interpretable Learning
and Reasoning [2.678461526933908]
我々は,人間の姿勢を,より親しみやすい言葉で表現する質的空間推論手法を導入する。
本稿では,2つのレベルでのシンボル表現の導出と,その予備的利用について述べる。
論文 参考訳(メタデータ) (2022-10-17T12:22:13Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z) - Multimodal perception for dexterous manipulation [14.314776558032166]
視覚と触覚の変換のためのクロスモーダルな知覚データ生成フレームワークを提案する。
本稿では,空間的特徴と時間次元を考慮した触覚テクスチャ認識のための時間的アテンションモデルを提案する。
論文 参考訳(メタデータ) (2021-12-28T21:20:26Z) - Skeleton-Based Mutually Assisted Interacted Object Localization and
Human Action Recognition [111.87412719773889]
本研究では,骨格データに基づく「相互作用対象の局所化」と「人間の行動認識」のための共同学習フレームワークを提案する。
本手法は,人間の行動認識のための最先端の手法を用いて,最高の,あるいは競争的な性能を実現する。
論文 参考訳(メタデータ) (2021-10-28T10:09:34Z) - Recent Progress in Appearance-based Action Recognition [73.6405863243707]
アクション認識は、ビデオ内の様々な人間の行動を特定するタスクである。
最近の外見に基づく手法は、正確な行動認識に向けて有望な進歩を遂げている。
論文 参考訳(メタデータ) (2020-11-25T10:18:12Z) - Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision
Action Recognition [131.6328804788164]
本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。
SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
論文 参考訳(メタデータ) (2020-09-01T03:38:31Z) - Temporal aggregation of audio-visual modalities for emotion recognition [0.5352699766206808]
本研究では,時間的オフセットの異なる時間的オフセットと時間的ウィンドウからの音声・視覚的モダリティを組み合わせた感情認識のためのマルチモーダル融合手法を提案する。
提案手法は,文献と人間の精度評価から,他の手法よりも優れている。
論文 参考訳(メタデータ) (2020-07-08T18:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。