論文の概要: Multi-Modal Learning for AU Detection Based on Multi-Head Fused
Transformers
- arxiv url: http://arxiv.org/abs/2203.11441v1
- Date: Tue, 22 Mar 2022 03:31:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-24 06:11:22.497088
- Title: Multi-Modal Learning for AU Detection Based on Multi-Head Fused
Transformers
- Title(参考訳): マルチヘッド融合トランスを用いたau検出のためのマルチモーダル学習
- Authors: Xiang Zhang and Lijun Yin
- Abstract要約: AU検出のためのエンドツーエンドのマルチヘッドフューズ変換器 (MFT) を提案する。
変換器エンコーダによって異なるモダリティから特徴表現をAU符号化し、他のフュージョントランスモジュールによってモダリティを融合する。
提案手法は、BP4DとBP4D+の2つのパブリックマルチモーダルAUデータベース上で評価される。
- 参考スコア(独自算出の注目度): 12.669741472823192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal learning has been intensified in recent years, especially for
applications in facial analysis and action unit detection whilst there still
exist two main challenges in terms of 1) relevant feature learning for
representation and 2) efficient fusion for multi-modalities. Recently, there
are a number of works have shown the effectiveness in utilizing the attention
mechanism for AU detection, however, most of them are binding the region of
interest (ROI) with features but rarely apply attention between features of
each AU. On the other hand, the transformer, which utilizes a more efficient
self-attention mechanism, has been widely used in natural language processing
and computer vision tasks but is not fully explored in AU detection tasks. In
this paper, we propose a novel end-to-end Multi-Head Fused Transformer (MFT)
method for AU detection, which learns AU encoding features representation from
different modalities by transformer encoder and fuses modalities by another
fusion transformer module. Multi-head fusion attention is designed in the
fusion transformer module for the effective fusion of multiple modalities. Our
approach is evaluated on two public multi-modal AU databases, BP4D, and BP4D+,
and the results are superior to the state-of-the-art algorithms and baseline
models. We further analyze the performance of AU detection from different
modalities.
- Abstract(参考訳): マルチモーダル学習は近年、特に顔分析やアクション・ユニット検出への応用において強化されているが、それでも2つの主な課題がある。
1)表現のための関連する特徴学習
2)マルチモーダルの効率的な融合
近年,AU検出における注意機構の有効性を示す研究が多数報告されているが,その多くが関心領域(ROI)に特徴を結び付けているが,各AUの特徴間で注目されることはめったにない。
一方,自然言語処理やコンピュータビジョンタスクでは,より効率的な自己照査機構を用いたトランスフォーマは広く用いられてきたが,au検出タスクでは十分に検討されていない。
本稿では,異なるモダリティから特徴表現を変換器エンコーダで学習し,他のフュージョントランスモジュールでモダリティを融合する,AU検出のための新しいエンド・ツー・エンド型マルチヘッドフューズドトランス (MFT) 手法を提案する。
マルチヘッドフュージョンアテンションは、複数モードの有効融合のためのフュージョントランスフォーマーモジュールとして設計されている。
提案手法は, BP4DとBP4D+の2つの公開マルチモーダルAUデータベース上で評価され, 現状のアルゴリズムやベースラインモデルよりも優れている。
さらに、異なるモダリティからAU検出の性能を解析する。
関連論文リスト
- SeaDATE: Remedy Dual-Attention Transformer with Semantic Alignment via Contrast Learning for Multimodal Object Detection [18.090706979440334]
マルチモーダルオブジェクト検出は、様々なモーダル情報を活用して、検出器の精度と堅牢性を高める。
現在の方法では、トランスフォーマー誘導核融合技術は、ネットワークの様々な深さ層における特徴を抽出する能力を探ることなく、単純にスタック化されている。
本論文では,SeaDATEと呼ばれる高精度かつ効率的な物体検出手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T07:26:39Z) - AMFD: Distillation via Adaptive Multimodal Fusion for Multispectral Pedestrian Detection [23.91870504363899]
マルチスペクトル検出におけるダブルストリームネットワークは、マルチモーダルデータに2つの異なる特徴抽出枝を用いる。
これにより、組み込みデバイスにおける多スペクトル歩行者検出が自律システムに広く採用されるのを妨げている。
本稿では,教師ネットワークの本来のモーダル特徴を完全に活用できる適応型モーダル核融合蒸留(AMFD)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2024-05-21T17:17:17Z) - Computation and Parameter Efficient Multi-Modal Fusion Transformer for
Cued Speech Recognition [48.84506301960988]
Cued Speech (CS) は、聴覚障害者が使用する純粋視覚符号化法である。
自動CS認識(ACSR)は、音声の視覚的手がかりをテキストに書き起こそうとする。
論文 参考訳(メタデータ) (2024-01-31T05:20:29Z) - Multimodal Transformer Using Cross-Channel attention for Object Detection in Remote Sensing Images [1.662438436885552]
マルチモーダル融合は、複数のモーダルからのデータを融合することで精度を高めることが決定されている。
早期に異なるチャネル間の関係をマッピングするための新しいマルチモーダル融合戦略を提案する。
本手法は,中期・後期の手法とは対照的に,早期の融合に対処することにより,既存の手法と比較して,競争力や性能に優れる。
論文 参考訳(メタデータ) (2023-10-21T00:56:11Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - ICAFusion: Iterative Cross-Attention Guided Feature Fusion for
Multispectral Object Detection [25.66305300362193]
大域的特徴相互作用をモデル化するために、二重対向変換器の新たな特徴融合フレームワークを提案する。
このフレームワークは、クエリ誘導のクロスアテンション機構を通じて、オブジェクトの特徴の識別性を高める。
提案手法は,様々なシナリオに適した性能と高速な推論を実現する。
論文 参考訳(メタデータ) (2023-08-15T00:02:10Z) - Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。
本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文 参考訳(メタデータ) (2023-03-01T15:48:27Z) - Towards Efficient Use of Multi-Scale Features in Transformer-Based
Object Detectors [49.83396285177385]
マルチスケール機能は、オブジェクト検出に非常に効果的であることが証明されているが、多くの場合、巨大な計算コストが伴う。
本稿では,Transformerベースのオブジェクト検出器において,マルチスケール機能を効率的に利用するための汎用パラダイムとして,Iterative Multi-scale Feature Aggregation (IMFA)を提案する。
論文 参考訳(メタデータ) (2022-08-24T08:09:25Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Cross-Modality Fusion Transformer for Multispectral Object Detection [0.0]
マルチスペクトル画像ペアは、組み合わせた情報を提供し、オブジェクト検出アプリケーションがより信頼性が高く、堅牢になる。
本論文では,CFT (Cross-Modality Fusion Transformer) という,単純かつ効果的なクロスモーダル機能融合手法を提案する。
論文 参考訳(メタデータ) (2021-10-30T15:34:12Z) - Accelerated Multi-Modal MR Imaging with Transformers [92.18406564785329]
MR画像の高速化のためのマルチモーダルトランス(MTrans)を提案する。
トランスアーキテクチャを再構築することで、MTransは深いマルチモーダル情報をキャプチャする強力な能力を得ることができる。
i)MTransはマルチモーダルMRイメージングに改良されたトランスフォーマーを使用する最初の試みであり、CNNベースの手法と比較してよりグローバルな情報を提供する。
論文 参考訳(メタデータ) (2021-06-27T15:01:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。