論文の概要: Multimodal Learning with Channel-Mixing and Masked Autoencoder on Facial
Action Unit Detection
- arxiv url: http://arxiv.org/abs/2209.12244v1
- Date: Sun, 25 Sep 2022 15:18:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 16:25:38.764096
- Title: Multimodal Learning with Channel-Mixing and Masked Autoencoder on Facial
Action Unit Detection
- Title(参考訳): 顔行動単位検出のためのチャンネルミキシングとマスケオートエンコーダを用いたマルチモーダル学習
- Authors: Xiang Zhang, Huiyuan Yang, Taoyue Wang, Xiaotian Li and Lijun Yin
- Abstract要約: 本稿では,MCM(Multi-modal Channel-Mixing)と呼ばれる新しいマルチモーダルネットワークについて,ロバスト表現を学習するための事前学習モデルとして提案する。
自動顔動作検出の下流課題における学習表現の評価を行った。
- 参考スコア(独自算出の注目度): 15.708478471699442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies utilizing multi-modal data aimed at building a robust model
for facial Action Unit (AU) detection. However, due to the heterogeneity of
multi-modal data, multi-modal representation learning becomes one of the main
challenges. On one hand, it is difficult to extract the relevant features from
multi-modalities by only one feature extractor, on the other hand, previous
studies have not fully explored the potential of multi-modal fusion strategies.
For example, early fusion usually required all modalities to be present during
inference, while late fusion and middle fusion increased the network size for
feature learning. In contrast to a large amount of work on late fusion, there
are few works on early fusion to explore the channel information. This paper
presents a novel multi-modal network called Multi-modal Channel-Mixing (MCM),
as a pre-trained model to learn a robust representation in order to facilitate
the multi-modal fusion. We evaluate the learned representation on a downstream
task of automatic facial action units detection. Specifically, it is a single
stream encoder network that uses a channel-mixing module in early fusion,
requiring only one modality in the downstream detection task. We also utilize
the masked ViT encoder to learn features from the fusion image and reconstruct
back two modalities with two ViT decoders. We have conducted extensive
experiments on two public datasets, known as BP4D and DISFA, to evaluate the
effectiveness and robustness of the proposed multimodal framework. The results
show our approach is comparable or superior to the state-of-the-art baseline
methods.
- Abstract(参考訳): 顔行動単位検出のための頑健なモデル構築を目的としたマルチモーダルデータを用いた最近の研究
しかし、マルチモーダルデータの多様性のため、マルチモーダル表現学習は大きな課題の1つとなっている。
一方,マルチモーダル融合戦略の可能性を十分に検討していない先行研究では,1つの特徴抽出器のみでは,関連する特徴をマルチモーダルから抽出することは困難である。
例えば、初期核融合は通常、推論中に全てのモダリティが必要であるが、後期核融合と中核融合は特徴学習のためのネットワークサイズを増大させた。
後期核融合に関する膨大な研究とは対照的に、チャネル情報を調べるための初期の核融合の研究はほとんどない。
本稿では,MCM(Multi-modal Channel-Mixing)と呼ばれる新しいマルチモーダルネットワークを提案する。
顔動作自動検出の下流課題における学習表現の評価を行った。
具体的には、チャネル混合モジュールを早期融合で使用する単一ストリームエンコーダネットワークであり、下流検出タスクでは1つのモダリティしか必要としない。
また、マスク付きViTエンコーダを用いて、融合画像から特徴を学習し、2つのViTデコーダで2つのモードを再構成する。
提案するマルチモーダルフレームワークの有効性とロバスト性を評価するため,BP4D と DISFA という2つの公開データセットについて広範な実験を行った。
その結果,本手法は最先端のベースライン手法と同等か優れていることがわかった。
関連論文リスト
- RADAR: Robust Two-stage Modality-incomplete Industrial Anomaly Detection [61.71770293720491]
本稿では,2段階のロバスト・モードアリティ不完全融合とFlaAmewoRkの検出について提案する。
我々のブートストラッピング哲学は、MIIADの2段階を強化し、マルチモーダルトランスの堅牢性を向上させることである。
実験の結果,提案手法は従来のMIAD法よりも有効性とロバスト性に優れていた。
論文 参考訳(メタデータ) (2024-10-02T16:47:55Z) - Application of Multimodal Fusion Deep Learning Model in Disease Recognition [14.655086303102575]
本稿では,従来の単一モーダル認識手法の欠点を克服する,革新的なマルチモーダル融合深層学習手法を提案する。
特徴抽出段階では、画像ベース、時間的、構造化されたデータソースから高度な特徴を抽出するために最先端のディープラーニングモデルを適用する。
その結果, マルチモーダル融合モデルにおいて, 複数の評価指標にまたがる大きな利点が示された。
論文 参考訳(メタデータ) (2024-05-22T23:09:49Z) - AMFD: Distillation via Adaptive Multimodal Fusion for Multispectral Pedestrian Detection [23.91870504363899]
マルチスペクトル検出におけるダブルストリームネットワークは、マルチモーダルデータに2つの異なる特徴抽出枝を用いる。
これにより、組み込みデバイスにおける多スペクトル歩行者検出が自律システムに広く採用されるのを妨げている。
本稿では,教師ネットワークの本来のモーダル特徴を完全に活用できる適応型モーダル核融合蒸留(AMFD)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2024-05-21T17:17:17Z) - CANAMRF: An Attention-Based Model for Multimodal Depression Detection [7.266707571724883]
適応型マルチモーダルリカレントフュージョン(CANAMRF)を用いたマルチモーダル抑うつ検出のためのクロスモーダルアテンションネットワークを提案する。
CANAMRFは、マルチモーダル特徴抽出器、アダプティブマルチモーダルリカレントフュージョンモジュール、ハイブリッドアテンションモジュールによって構成されている。
論文 参考訳(メタデータ) (2024-01-04T12:08:16Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Distilled Mid-Fusion Transformer Networks for Multi-Modal Human Activity
Recognition [34.424960016807795]
マルチモーダルなヒューマンアクティビティ認識は、補完的な情報を利用して、うまく一般化できるモデルを構築することができる。
深層学習法は有望な結果を示しており,有意な多モーダルな時空間特徴抽出の可能性は十分に検討されていない。
知識蒸留に基づくマルチモーダル・ミッドフュージョン・アプローチ(DMFT)を提案し,多モーダル・ヒューマンアクティビティ認識タスクを効率的に解決するために,情報的特徴抽出と融合を行う。
論文 参考訳(メタデータ) (2023-05-05T19:26:06Z) - MMDR: A Result Feature Fusion Object Detection Approach for Autonomous
System [5.499393552545591]
提案手法は,MMDR (Multi-Modal Detector based based Result features) と呼ばれ,2次元と3次元の両方のオブジェクト検出タスクで動作するように設計されている。
MMDRモデルは、機能融合の段階で、浅いグローバルな特徴を取り入れ、背景情報を知覚する能力を持つモデルを提供する。
論文 参考訳(メタデータ) (2023-04-19T12:28:42Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z) - MuCAN: Multi-Correspondence Aggregation Network for Video
Super-Resolution [63.02785017714131]
ビデオ超解像(VSR)は、複数の低解像度フレームを使用して、各フレームに対して高解像度の予測を生成することを目的としている。
フレーム間およびフレーム内は、時間的および空間的情報を利用するための鍵となるソースである。
VSRのための効果的なマルチ対応アグリゲーションネットワーク(MuCAN)を構築した。
論文 参考訳(メタデータ) (2020-07-23T05:41:27Z) - TubeTK: Adopting Tubes to Track Multi-Object in a One-Step Training
Model [51.14840210957289]
マルチオブジェクトトラッキングは、長い間研究されてきた基本的な視覚問題である。
Tracking by Detection (TBD)の成功にもかかわらず、この2段階の手法はエンドツーエンドでトレーニングするには複雑すぎる。
本稿では,短いビデオクリップ中の物体の時間空間位置を示すために,バウンディングチューブを導入することで,一段階のトレーニングしか必要としない簡潔なエンドツーエンドモデルチューブTKを提案する。
論文 参考訳(メタデータ) (2020-06-10T06:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。