論文の概要: From CNNs to Transformers in Multimodal Human Action Recognition: A Survey
- arxiv url: http://arxiv.org/abs/2405.15813v1
- Date: Wed, 22 May 2024 02:11:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 02:39:33.921775
- Title: From CNNs to Transformers in Multimodal Human Action Recognition: A Survey
- Title(参考訳): マルチモーダル人間行動認識におけるCNNからトランスフォーマーへ
- Authors: Muhammad Bilal Shaikh, Syed Mohammed Shamsul Islam, Douglas Chai, Naveed Akhtar,
- Abstract要約: 人間の行動認識はコンピュータビジョンにおいて最も広く研究されている研究問題の1つである。
近年の研究では、マルチモーダルデータを用いてこの問題に対処することで性能が向上することが示されている。
視覚モデリングにおけるトランスフォーマーの最近の増加は、アクション認識タスクのパラダイムシフトを引き起こしている。
- 参考スコア(独自算出の注目度): 23.674123304219822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to its widespread applications, human action recognition is one of the most widely studied research problems in Computer Vision. Recent studies have shown that addressing it using multimodal data leads to superior performance as compared to relying on a single data modality. During the adoption of deep learning for visual modelling in the last decade, action recognition approaches have mainly relied on Convolutional Neural Networks (CNNs). However, the recent rise of Transformers in visual modelling is now also causing a paradigm shift for the action recognition task. This survey captures this transition while focusing on Multimodal Human Action Recognition (MHAR). Unique to the induction of multimodal computational models is the process of "fusing" the features of the individual data modalities. Hence, we specifically focus on the fusion design aspects of the MHAR approaches. We analyze the classic and emerging techniques in this regard, while also highlighting the popular trends in the adaption of CNN and Transformer building blocks for the overall problem. In particular, we emphasize on recent design choices that have led to more efficient MHAR models. Unlike existing reviews, which discuss Human Action Recognition from a broad perspective, this survey is specifically aimed at pushing the boundaries of MHAR research by identifying promising architectural and fusion design choices to train practicable models. We also provide an outlook of the multimodal datasets from their scale and evaluation viewpoint. Finally, building on the reviewed literature, we discuss the challenges and future avenues for MHAR.
- Abstract(参考訳): 広く応用されているため、人間の行動認識はコンピュータビジョンにおいて最も広く研究されている研究問題の一つである。
近年の研究では、マルチモーダルデータによる対応は、単一のデータモダリティに依存するよりも優れたパフォーマンスをもたらすことが示されている。
過去10年間のビジュアルモデリングにディープラーニングが採用されている間、アクション認識アプローチは主に畳み込みニューラルネットワーク(CNN)に依存してきた。
しかし、近年の視覚モデリングにおけるトランスフォーマーの台頭は、アクション認識タスクのパラダイムシフトを引き起こしている。
この調査は、MHAR(Multimodal Human Action Recognition)に注目しながら、この変化を捉えている。
マルチモーダル計算モデルの帰納には、個々のデータモダリティの特徴を「融合」するプロセスがある。
したがって、我々はMHARアプローチの融合設計面に特に焦点をあてる。
本稿では,CNN や Transformer のビルディングブロックへの適応の傾向を概観しながら,古典的および新興的手法の分析を行う。
特に、より効率的なMHARモデルに繋がった最近の設計選択に重点を置いている。
人間の行動認識を幅広い視点から論じる既存のレビューとは違って、本調査は、実践可能なモデルをトレーニングするための有望なアーキテクチャと融合設計の選択を特定することで、MHAR研究の境界を推し進めることを目的としている。
また、そのスケールと評価の観点から、マルチモーダルデータセットの展望を提供する。
最後に、レビューされた文献に基づいて、MHARの課題と今後の道について論じる。
関連論文リスト
- Cross-Modal Consistency in Multimodal Large Language Models [33.229271701817616]
クロスモーダル一貫性という新しい概念を導入する。
実験結果から, GPT-4V内における視覚と言語モダリティの矛盾が明らかとなった。
我々の研究は、そのようなモデルの適切な利用に関する洞察と、その設計を強化するための潜在的な道のヒントを得る。
論文 参考訳(メタデータ) (2024-11-14T08:22:42Z) - Keypoints-Integrated Instruction-Following Data Generation for Enhanced Human Pose Understanding in Multimodal Models [1.9890559505377343]
本研究では,人間のキーポイントとキャプションやバウンディングボックスといった従来の視覚的特徴を統合することで,そのようなデータを生成する新しい手法を提案する。
提案手法は,人間中心の活動に優れる微調整モデルのために設計されたデータセットを生成する。
実験の結果、LLaVA-7Bモデルと比較して21.18%の改善が見られた。
論文 参考訳(メタデータ) (2024-09-14T05:07:57Z) - Probing Fine-Grained Action Understanding and Cross-View Generalization of Foundation Models [13.972809192907931]
ファンデーションモデル(FM)は、広いデータセットでトレーニングされた大規模なニューラルネットワークである。
ビデオにおける人間の活動認識は、異なるアーキテクチャ間の競争によって駆動されるFMによって進歩している。
本稿では,視線変化が人体活動認識の微粒化における異なるFMに与える影響を実験的に評価する。
論文 参考訳(メタデータ) (2024-07-22T12:59:57Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Comprehensive Exploration of Synthetic Data Generation: A Survey [4.485401662312072]
この研究は、過去10年間で417のSynthetic Data Generationモデルを調査します。
その結果、ニューラルネットワークベースのアプローチが普及し、モデルのパフォーマンスと複雑性が向上したことが明らかになった。
コンピュータビジョンが支配的であり、GANが主要な生成モデルであり、拡散モデル、トランスフォーマー、RNNが競合する。
論文 参考訳(メタデータ) (2024-01-04T20:23:51Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - A Comprehensive Survey on Applications of Transformers for Deep Learning
Tasks [60.38369406877899]
Transformerは、シーケンシャルデータ内のコンテキスト関係を理解するために自己認識メカニズムを使用するディープニューラルネットワークである。
Transformerモデルは、入力シーケンス要素間の長い依存関係を処理し、並列処理を可能にする。
我々の調査では、トランスフォーマーベースのモデルのためのトップ5のアプリケーションドメインを特定します。
論文 参考訳(メタデータ) (2023-06-11T23:13:51Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - Perceptual Score: What Data Modalities Does Your Model Perceive? [73.75255606437808]
モデルが入力特徴の異なる部分集合に依存する度合いを評価する指標である知覚スコアを導入する。
近年,視覚的質問応答に対するマルチモーダルモデルでは,前者よりも視覚的データを知覚しにくい傾向がみられた。
知覚スコアを使用することで、スコアをデータサブセットのコントリビューションに分解することで、モデルのバイアスを分析することもできる。
論文 参考訳(メタデータ) (2021-10-27T12:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。