論文の概要: Multimodal Channel-Mixing: Channel and Spatial Masked AutoEncoder on
Facial Action Unit Detection
- arxiv url: http://arxiv.org/abs/2209.12244v2
- Date: Mon, 21 Aug 2023 22:12:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 18:57:25.291041
- Title: Multimodal Channel-Mixing: Channel and Spatial Masked AutoEncoder on
Facial Action Unit Detection
- Title(参考訳): マルチモーダルチャネルミキシング:顔行動単位検出のためのチャネルと空間マスク付きオートエンコーダ
- Authors: Xiang Zhang, Huiyuan Yang, Taoyue Wang, Xiaotian Li and Lijun Yin
- Abstract要約: 本稿では,MCM(Multimodal Channel-Mixing)と呼ばれる新しいマルチモーダル再構成ネットワークを提案する。
このアプローチは、Channel-Mixingモジュールを統合して、5つのうち2つをランダムにドロップする、初期の融合設定に従っている。
このモジュールはチャネルの冗長性を低下させるだけでなく、マルチモーダル学習と再構成機能も促進し、ロバストな特徴学習をもたらす。
- 参考スコア(独自算出の注目度): 12.509298933267225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have focused on utilizing multi-modal data to develop robust
models for facial Action Unit (AU) detection. However, the heterogeneity of
multi-modal data poses challenges in learning effective representations. One
such challenge is extracting relevant features from multiple modalities using a
single feature extractor. Moreover, previous studies have not fully explored
the potential of multi-modal fusion strategies. In contrast to the extensive
work on late fusion, there are limited investigations on early fusion for
channel information exploration. This paper presents a novel multi-modal
reconstruction network, named Multimodal Channel-Mixing (MCM), as a pre-trained
model to learn robust representation for facilitating multi-modal fusion. The
approach follows an early fusion setup, integrating a Channel-Mixing module,
where two out of five channels are randomly dropped. The dropped channels then
are reconstructed from the remaining channels using masked autoencoder. This
module not only reduces channel redundancy, but also facilitates multi-modal
learning and reconstruction capabilities, resulting in robust feature learning.
The encoder is fine-tuned on a downstream task of automatic facial action unit
detection. Pre-training experiments were conducted on BP4D+, followed by
fine-tuning on BP4D and DISFA to assess the effectiveness and robustness of the
proposed framework. The results demonstrate that our method meets and surpasses
the performance of state-of-the-art baseline methods.
- Abstract(参考訳): 近年,顔行動単位(au)検出のためのロバストモデルの開発にマルチモーダルデータの利用が注目されている。
しかし、マルチモーダルデータの異質性は、効果的な表現の学習に困難をもたらす。
そのような課題の1つは、単一の特徴抽出器を使って複数のモダリティから関連する特徴を抽出することである。
さらに、これまでの研究では、マルチモーダル核融合戦略の可能性を十分に研究していない。
後期核融合に関する広範な研究とは対照的に、チャンネル情報探索のための初期の核融合に関する調査は限られている。
本稿では,マルチモーダル融合を容易にするためのロバスト表現を学習するための事前学習モデルとして,マルチモーダルチャネル混合 (mcm) と呼ばれる新しいマルチモーダル再構成ネットワークを提案する。
このアプローチは、5つのチャネルのうち2つがランダムにドロップされるチャネル混合モジュールを統合する、早期のフュージョンセットアップに従っている。
その後、落としたチャンネルはマスク付きオートエンコーダを使用して残りのチャンネルから再構築される。
このモジュールはチャネルの冗長性を低下させるだけでなく、マルチモーダル学習と再構成機能を促進する。
エンコーダは、自動顔アクションユニット検出の下流タスクに微調整される。
BP4D+で事前学習実験を行い, BP4DとDisFAを微調整し, 提案フレームワークの有効性と堅牢性を検討した。
その結果,本手法は最先端ベースライン法の性能を満たし,その性能を上回っていることがわかった。
関連論文リスト
- RADAR: Robust Two-stage Modality-incomplete Industrial Anomaly Detection [61.71770293720491]
本稿では,2段階のロバスト・モードアリティ不完全融合とFlaAmewoRkの検出について提案する。
我々のブートストラッピング哲学は、MIIADの2段階を強化し、マルチモーダルトランスの堅牢性を向上させることである。
実験の結果,提案手法は従来のMIAD法よりも有効性とロバスト性に優れていた。
論文 参考訳(メタデータ) (2024-10-02T16:47:55Z) - Application of Multimodal Fusion Deep Learning Model in Disease Recognition [14.655086303102575]
本稿では,従来の単一モーダル認識手法の欠点を克服する,革新的なマルチモーダル融合深層学習手法を提案する。
特徴抽出段階では、画像ベース、時間的、構造化されたデータソースから高度な特徴を抽出するために最先端のディープラーニングモデルを適用する。
その結果, マルチモーダル融合モデルにおいて, 複数の評価指標にまたがる大きな利点が示された。
論文 参考訳(メタデータ) (2024-05-22T23:09:49Z) - AMFD: Distillation via Adaptive Multimodal Fusion for Multispectral Pedestrian Detection [23.91870504363899]
マルチスペクトル検出におけるダブルストリームネットワークは、マルチモーダルデータに2つの異なる特徴抽出枝を用いる。
これにより、組み込みデバイスにおける多スペクトル歩行者検出が自律システムに広く採用されるのを妨げている。
本稿では,教師ネットワークの本来のモーダル特徴を完全に活用できる適応型モーダル核融合蒸留(AMFD)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2024-05-21T17:17:17Z) - CANAMRF: An Attention-Based Model for Multimodal Depression Detection [7.266707571724883]
適応型マルチモーダルリカレントフュージョン(CANAMRF)を用いたマルチモーダル抑うつ検出のためのクロスモーダルアテンションネットワークを提案する。
CANAMRFは、マルチモーダル特徴抽出器、アダプティブマルチモーダルリカレントフュージョンモジュール、ハイブリッドアテンションモジュールによって構成されている。
論文 参考訳(メタデータ) (2024-01-04T12:08:16Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Distilled Mid-Fusion Transformer Networks for Multi-Modal Human Activity
Recognition [34.424960016807795]
マルチモーダルなヒューマンアクティビティ認識は、補完的な情報を利用して、うまく一般化できるモデルを構築することができる。
深層学習法は有望な結果を示しており,有意な多モーダルな時空間特徴抽出の可能性は十分に検討されていない。
知識蒸留に基づくマルチモーダル・ミッドフュージョン・アプローチ(DMFT)を提案し,多モーダル・ヒューマンアクティビティ認識タスクを効率的に解決するために,情報的特徴抽出と融合を行う。
論文 参考訳(メタデータ) (2023-05-05T19:26:06Z) - MMDR: A Result Feature Fusion Object Detection Approach for Autonomous
System [5.499393552545591]
提案手法は,MMDR (Multi-Modal Detector based based Result features) と呼ばれ,2次元と3次元の両方のオブジェクト検出タスクで動作するように設計されている。
MMDRモデルは、機能融合の段階で、浅いグローバルな特徴を取り入れ、背景情報を知覚する能力を持つモデルを提供する。
論文 参考訳(メタデータ) (2023-04-19T12:28:42Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z) - MuCAN: Multi-Correspondence Aggregation Network for Video
Super-Resolution [63.02785017714131]
ビデオ超解像(VSR)は、複数の低解像度フレームを使用して、各フレームに対して高解像度の予測を生成することを目的としている。
フレーム間およびフレーム内は、時間的および空間的情報を利用するための鍵となるソースである。
VSRのための効果的なマルチ対応アグリゲーションネットワーク(MuCAN)を構築した。
論文 参考訳(メタデータ) (2020-07-23T05:41:27Z) - TubeTK: Adopting Tubes to Track Multi-Object in a One-Step Training
Model [51.14840210957289]
マルチオブジェクトトラッキングは、長い間研究されてきた基本的な視覚問題である。
Tracking by Detection (TBD)の成功にもかかわらず、この2段階の手法はエンドツーエンドでトレーニングするには複雑すぎる。
本稿では,短いビデオクリップ中の物体の時間空間位置を示すために,バウンディングチューブを導入することで,一段階のトレーニングしか必要としない簡潔なエンドツーエンドモデルチューブTKを提案する。
論文 参考訳(メタデータ) (2020-06-10T06:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。