論文の概要: Distilled Mid-Fusion Transformer Networks for Multi-Modal Human Activity
Recognition
- arxiv url: http://arxiv.org/abs/2305.03810v1
- Date: Fri, 5 May 2023 19:26:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 19:21:36.353285
- Title: Distilled Mid-Fusion Transformer Networks for Multi-Modal Human Activity
Recognition
- Title(参考訳): 蒸留ミッドフュージョントランスフォーマーネットワークによるマルチモーダルヒューマンアクティビティ認識
- Authors: Jingcheng Li, Lina Yao, Binghao Li, Claude Sammut
- Abstract要約: マルチモーダルなヒューマンアクティビティ認識は、補完的な情報を利用して、うまく一般化できるモデルを構築することができる。
深層学習法は有望な結果を示しており,有意な多モーダルな時空間特徴抽出の可能性は十分に検討されていない。
知識蒸留に基づくマルチモーダル・ミッドフュージョン・アプローチ(DMFT)を提案し,多モーダル・ヒューマンアクティビティ認識タスクを効率的に解決するために,情報的特徴抽出と融合を行う。
- 参考スコア(独自算出の注目度): 34.424960016807795
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Human Activity Recognition is an important task in many human-computer
collaborative scenarios, whilst having various practical applications. Although
uni-modal approaches have been extensively studied, they suffer from data
quality and require modality-specific feature engineering, thus not being
robust and effective enough for real-world deployment. By utilizing various
sensors, Multi-modal Human Activity Recognition could utilize the complementary
information to build models that can generalize well. While deep learning
methods have shown promising results, their potential in extracting salient
multi-modal spatial-temporal features and better fusing complementary
information has not been fully explored. Also, reducing the complexity of the
multi-modal approach for edge deployment is another problem yet to resolve. To
resolve the issues, a knowledge distillation-based Multi-modal Mid-Fusion
approach, DMFT, is proposed to conduct informative feature extraction and
fusion to resolve the Multi-modal Human Activity Recognition task efficiently.
DMFT first encodes the multi-modal input data into a unified representation.
Then the DMFT teacher model applies an attentive multi-modal spatial-temporal
transformer module that extracts the salient spatial-temporal features. A
temporal mid-fusion module is also proposed to further fuse the temporal
features. Then the knowledge distillation method is applied to transfer the
learned representation from the teacher model to a simpler DMFT student model,
which consists of a lite version of the multi-modal spatial-temporal
transformer module, to produce the results. Evaluation of DMFT was conducted on
two public multi-modal human activity recognition datasets with various
state-of-the-art approaches. The experimental results demonstrate that the
model achieves competitive performance in terms of effectiveness, scalability,
and robustness.
- Abstract(参考訳): 人間の活動認識は多くの人間とコンピュータの協調シナリオにおいて重要なタスクであり、様々な応用がある。
ユニモーダルアプローチは広く研究されているが、データ品質に悩まされ、モダリティ固有の機能エンジニアリングを必要とするため、現実のデプロイメントに十分な堅牢で効果的ではない。
様々なセンサを利用することで、マルチモーダルなヒューマンアクティビティ認識は、補完的な情報を利用して、うまく一般化できるモデルを構築することができる。
深層学習法では有望な結果が得られたが,多モード空間-時間的特徴の抽出と補完的情報の利用は十分に検討されていない。
また、エッジデプロイメントのためのマルチモーダルアプローチの複雑さを低減することも、まだ解決できていない問題です。
本課題を解決するために, 知識蒸留型マルチモーダル・ミッドフュージョン・アプローチdmft(dmft)を提案し, 情報的特徴抽出と融合を行い, マルチモーダル・ヒューマンアクティビティ認識タスクを効率的に解決する。
DMFTはまず、マルチモーダル入力データを統一表現に符号化する。
DMFT教師モデルでは,有意な時空間特徴を抽出する多モード時空間変圧器モジュールを適用した。
時間的中核融合モジュールも提案され、時間的特徴をさらに融合させる。
次に、学習した表現を教師モデルから多モード空間時変器モジュールのエレガントなバージョンからなるシンプルなDMFT学生モデルに転送し、結果を生成する知識蒸留法を適用した。
DMFTの評価は2つの公開マルチモーダルな人間活動認識データセットを用いて行われた。
実験の結果,モデルの有効性,スケーラビリティ,ロバスト性の観点から,競争性能が得られた。
関連論文リスト
- RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - AMFD: Distillation via Adaptive Multimodal Fusion for Multispectral Pedestrian Detection [23.91870504363899]
マルチスペクトル検出におけるダブルストリームネットワークは、マルチモーダルデータに2つの異なる特徴抽出枝を用いる。
これにより、組み込みデバイスにおける多スペクトル歩行者検出が自律システムに広く採用されるのを妨げている。
本稿では,教師ネットワークの本来のモーダル特徴を完全に活用できる適応型モーダル核融合蒸留(AMFD)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2024-05-21T17:17:17Z) - Dynamic Self-adaptive Multiscale Distillation from Pre-trained Multimodal Large Model for Efficient Cross-modal Representation Learning [12.00246872965739]
本稿では,事前学習型マルチモーダル大モデルを用いた動的自己適応型マルチスケール蒸留法を提案する。
我々の戦略は、事前訓練されたマルチモーダル大モデルから構造的知識を抽出できる、マルチスケールな視点を用いている。
提案手法は,出力特徴とオリジナル画像レベル情報のみを用いて,事前学習したマルチモーダル大規模モデルを合理化する。
論文 参考訳(メタデータ) (2024-04-16T18:22:49Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Generalized Product-of-Experts for Learning Multimodal Representations
in Noisy Environments [18.14974353615421]
本稿では,エキスパート手法の一般化による雑音環境下でのマルチモーダル表現学習手法を提案する。
提案手法では,モダリティ毎に異なるネットワークをトレーニングし,そのモダリティから得られる情報の信頼性を評価する。
マルチモーダル3Dハンドプレース推定とマルチモーダル手術ビデオセグメンテーションという,2つの挑戦的なベンチマークで最先端のパフォーマンスを得た。
論文 参考訳(メタデータ) (2022-11-07T14:27:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。