論文の概要: Distilled Mid-Fusion Transformer Networks for Multi-Modal Human Activity
Recognition
- arxiv url: http://arxiv.org/abs/2305.03810v1
- Date: Fri, 5 May 2023 19:26:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 19:21:36.353285
- Title: Distilled Mid-Fusion Transformer Networks for Multi-Modal Human Activity
Recognition
- Title(参考訳): 蒸留ミッドフュージョントランスフォーマーネットワークによるマルチモーダルヒューマンアクティビティ認識
- Authors: Jingcheng Li, Lina Yao, Binghao Li, Claude Sammut
- Abstract要約: マルチモーダルなヒューマンアクティビティ認識は、補完的な情報を利用して、うまく一般化できるモデルを構築することができる。
深層学習法は有望な結果を示しており,有意な多モーダルな時空間特徴抽出の可能性は十分に検討されていない。
知識蒸留に基づくマルチモーダル・ミッドフュージョン・アプローチ(DMFT)を提案し,多モーダル・ヒューマンアクティビティ認識タスクを効率的に解決するために,情報的特徴抽出と融合を行う。
- 参考スコア(独自算出の注目度): 34.424960016807795
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Human Activity Recognition is an important task in many human-computer
collaborative scenarios, whilst having various practical applications. Although
uni-modal approaches have been extensively studied, they suffer from data
quality and require modality-specific feature engineering, thus not being
robust and effective enough for real-world deployment. By utilizing various
sensors, Multi-modal Human Activity Recognition could utilize the complementary
information to build models that can generalize well. While deep learning
methods have shown promising results, their potential in extracting salient
multi-modal spatial-temporal features and better fusing complementary
information has not been fully explored. Also, reducing the complexity of the
multi-modal approach for edge deployment is another problem yet to resolve. To
resolve the issues, a knowledge distillation-based Multi-modal Mid-Fusion
approach, DMFT, is proposed to conduct informative feature extraction and
fusion to resolve the Multi-modal Human Activity Recognition task efficiently.
DMFT first encodes the multi-modal input data into a unified representation.
Then the DMFT teacher model applies an attentive multi-modal spatial-temporal
transformer module that extracts the salient spatial-temporal features. A
temporal mid-fusion module is also proposed to further fuse the temporal
features. Then the knowledge distillation method is applied to transfer the
learned representation from the teacher model to a simpler DMFT student model,
which consists of a lite version of the multi-modal spatial-temporal
transformer module, to produce the results. Evaluation of DMFT was conducted on
two public multi-modal human activity recognition datasets with various
state-of-the-art approaches. The experimental results demonstrate that the
model achieves competitive performance in terms of effectiveness, scalability,
and robustness.
- Abstract(参考訳): 人間の活動認識は多くの人間とコンピュータの協調シナリオにおいて重要なタスクであり、様々な応用がある。
ユニモーダルアプローチは広く研究されているが、データ品質に悩まされ、モダリティ固有の機能エンジニアリングを必要とするため、現実のデプロイメントに十分な堅牢で効果的ではない。
様々なセンサを利用することで、マルチモーダルなヒューマンアクティビティ認識は、補完的な情報を利用して、うまく一般化できるモデルを構築することができる。
深層学習法では有望な結果が得られたが,多モード空間-時間的特徴の抽出と補完的情報の利用は十分に検討されていない。
また、エッジデプロイメントのためのマルチモーダルアプローチの複雑さを低減することも、まだ解決できていない問題です。
本課題を解決するために, 知識蒸留型マルチモーダル・ミッドフュージョン・アプローチdmft(dmft)を提案し, 情報的特徴抽出と融合を行い, マルチモーダル・ヒューマンアクティビティ認識タスクを効率的に解決する。
DMFTはまず、マルチモーダル入力データを統一表現に符号化する。
DMFT教師モデルでは,有意な時空間特徴を抽出する多モード時空間変圧器モジュールを適用した。
時間的中核融合モジュールも提案され、時間的特徴をさらに融合させる。
次に、学習した表現を教師モデルから多モード空間時変器モジュールのエレガントなバージョンからなるシンプルなDMFT学生モデルに転送し、結果を生成する知識蒸留法を適用した。
DMFTの評価は2つの公開マルチモーダルな人間活動認識データセットを用いて行われた。
実験の結果,モデルの有効性,スケーラビリティ,ロバスト性の観点から,競争性能が得られた。
関連論文リスト
- Delving into Multi-modal Multi-task Foundation Models for Road Scene
Understanding: From Learning Paradigm Perspectives [57.3734614555802]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。
本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。
我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-02-05T12:47:09Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [79.9201824151389]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
推論フェーズの間、MLAはテスト時間不確実性に基づくモデル融合機構を使用して、マルチモーダル情報を統合する。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - On Uni-Modal Feature Learning in Supervised Multi-Modal Learning [21.822251958013737]
マルチモーダルデータの特徴(つまり学習された表現)を,1)ユニモーダルな特徴と2)相互モーダルな相互作用からしか学べないペア化された特徴にまとめる。
簡単な誘導戦略により、様々なマルチモーダルデータセット上の他の複雑なレイトフュージョン法や中間フュージョン法に匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2023-05-02T07:15:10Z) - Generalizing Multimodal Variational Methods to Sets [35.69942798534849]
本稿では,マルチモーダル潜在空間を学習するために,Set Multimodal VAE(SMVAE)と呼ばれる新しい変分法を提案する。
共同モダリティ後部分布を直接モデル化することにより、提案したSMVAEは、複数のモダリティ間で情報を交換し、分解による欠点を補うことを学習する。
論文 参考訳(メタデータ) (2022-12-19T23:50:19Z) - Generalized Product-of-Experts for Learning Multimodal Representations
in Noisy Environments [18.14974353615421]
本稿では,エキスパート手法の一般化による雑音環境下でのマルチモーダル表現学習手法を提案する。
提案手法では,モダリティ毎に異なるネットワークをトレーニングし,そのモダリティから得られる情報の信頼性を評価する。
マルチモーダル3Dハンドプレース推定とマルチモーダル手術ビデオセグメンテーションという,2つの挑戦的なベンチマークで最先端のパフォーマンスを得た。
論文 参考訳(メタデータ) (2022-11-07T14:27:38Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - Learning Modality-Specific Representations with Self-Supervised
Multi-Task Learning for Multimodal Sentiment Analysis [11.368438990334397]
我々は,独立した一助的指導を受けるための自己指導型学習戦略を開発する。
我々は3つの公開マルチモーダルベースラインデータセットについて広範な実験を行った。
提案手法は,人間の注釈付きアンモダルラベルと同等の性能を達成している。
論文 参考訳(メタデータ) (2021-02-09T14:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。