論文の概要: Multi-Modal Learning for AU Detection Based on Multi-Head Fused
Transformers
- arxiv url: http://arxiv.org/abs/2203.11441v1
- Date: Tue, 22 Mar 2022 03:31:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-24 06:11:22.497088
- Title: Multi-Modal Learning for AU Detection Based on Multi-Head Fused
Transformers
- Title(参考訳): マルチヘッド融合トランスを用いたau検出のためのマルチモーダル学習
- Authors: Xiang Zhang and Lijun Yin
- Abstract要約: AU検出のためのエンドツーエンドのマルチヘッドフューズ変換器 (MFT) を提案する。
変換器エンコーダによって異なるモダリティから特徴表現をAU符号化し、他のフュージョントランスモジュールによってモダリティを融合する。
提案手法は、BP4DとBP4D+の2つのパブリックマルチモーダルAUデータベース上で評価される。
- 参考スコア(独自算出の注目度): 12.669741472823192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal learning has been intensified in recent years, especially for
applications in facial analysis and action unit detection whilst there still
exist two main challenges in terms of 1) relevant feature learning for
representation and 2) efficient fusion for multi-modalities. Recently, there
are a number of works have shown the effectiveness in utilizing the attention
mechanism for AU detection, however, most of them are binding the region of
interest (ROI) with features but rarely apply attention between features of
each AU. On the other hand, the transformer, which utilizes a more efficient
self-attention mechanism, has been widely used in natural language processing
and computer vision tasks but is not fully explored in AU detection tasks. In
this paper, we propose a novel end-to-end Multi-Head Fused Transformer (MFT)
method for AU detection, which learns AU encoding features representation from
different modalities by transformer encoder and fuses modalities by another
fusion transformer module. Multi-head fusion attention is designed in the
fusion transformer module for the effective fusion of multiple modalities. Our
approach is evaluated on two public multi-modal AU databases, BP4D, and BP4D+,
and the results are superior to the state-of-the-art algorithms and baseline
models. We further analyze the performance of AU detection from different
modalities.
- Abstract(参考訳): マルチモーダル学習は近年、特に顔分析やアクション・ユニット検出への応用において強化されているが、それでも2つの主な課題がある。
1)表現のための関連する特徴学習
2)マルチモーダルの効率的な融合
近年,AU検出における注意機構の有効性を示す研究が多数報告されているが,その多くが関心領域(ROI)に特徴を結び付けているが,各AUの特徴間で注目されることはめったにない。
一方,自然言語処理やコンピュータビジョンタスクでは,より効率的な自己照査機構を用いたトランスフォーマは広く用いられてきたが,au検出タスクでは十分に検討されていない。
本稿では,異なるモダリティから特徴表現を変換器エンコーダで学習し,他のフュージョントランスモジュールでモダリティを融合する,AU検出のための新しいエンド・ツー・エンド型マルチヘッドフューズドトランス (MFT) 手法を提案する。
マルチヘッドフュージョンアテンションは、複数モードの有効融合のためのフュージョントランスフォーマーモジュールとして設計されている。
提案手法は, BP4DとBP4D+の2つの公開マルチモーダルAUデータベース上で評価され, 現状のアルゴリズムやベースラインモデルよりも優れている。
さらに、異なるモダリティからAU検出の性能を解析する。
関連論文リスト
- Computation and Parameter Efficient Multi-Modal Fusion Transformer for
Cued Speech Recognition [48.84506301960988]
Cued Speech (CS) は、聴覚障害者が使用する純粋視覚符号化法である。
自動CS認識(ACSR)は、音声の視覚的手がかりをテキストに書き起こそうとする。
論文 参考訳(メタデータ) (2024-01-31T05:20:29Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - ICAFusion: Iterative Cross-Attention Guided Feature Fusion for
Multispectral Object Detection [25.66305300362193]
大域的特徴相互作用をモデル化するために、二重対向変換器の新たな特徴融合フレームワークを提案する。
このフレームワークは、クエリ誘導のクロスアテンション機構を通じて、オブジェクトの特徴の識別性を高める。
提案手法は,様々なシナリオに適した性能と高速な推論を実現する。
論文 参考訳(メタデータ) (2023-08-15T00:02:10Z) - Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。
本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文 参考訳(メタデータ) (2023-03-01T15:48:27Z) - MS-DETR: Multispectral Pedestrian Detection Transformer with Loosely
Coupled Fusion and Modality-Balanced Optimization [43.958268661078925]
マルチスペクトル歩行者検出TRansformer (MS-DETR) は、エンドツーエンドの多スペクトル歩行者検出器である。
MS-DETRは2つのモダリティ固有のバックボーンとトランスフォーマーエンコーダで構成され、その後マルチモーダルトランスフォーマーデコーダが続く。
我々のエンドツーエンドのMS-DETRは、挑戦的なKAIST、CVC-14、LLVIPベンチマークデータセットよりも優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-01T07:45:10Z) - Towards Efficient Use of Multi-Scale Features in Transformer-Based
Object Detectors [49.83396285177385]
マルチスケール機能は、オブジェクト検出に非常に効果的であることが証明されているが、多くの場合、巨大な計算コストが伴う。
本稿では,Transformerベースのオブジェクト検出器において,マルチスケール機能を効率的に利用するための汎用パラダイムとして,Iterative Multi-scale Feature Aggregation (IMFA)を提案する。
論文 参考訳(メタデータ) (2022-08-24T08:09:25Z) - MSTR: Multi-Scale Transformer for End-to-End Human-Object Interaction
Detection [21.296007737406494]
ヒューマン・オブジェクト・インタラクション(Human-Object Interaction,HOI)は、画像から人間、オブジェクト、インタラクションのセットを識別するタスクである。
近年の研究では、HOI検出における多くの手設計コンポーネントの必要性を解消するトランスフォーマーエンコーダデコーダアーキテクチャが提案されている。
本稿では,HOI検出用マルチスケールTRansformer (MSTR) を提案する。
論文 参考訳(メタデータ) (2022-03-28T12:58:59Z) - LMR-CBT: Learning Modality-fused Representations with CB-Transformer for
Multimodal Emotion Recognition from Unaligned Multimodal Sequences [5.570499497432848]
マルチモーダル感情認識のためのCB-Transformer (LMR-CBT) を用いて, モダリティ融合表現を学習するための効率的なニューラルネットワークを提案する。
3つの挑戦的なデータセット上で、単語整列と非整列の実験を行います。
論文 参考訳(メタデータ) (2021-12-03T03:43:18Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Cross-Modality Fusion Transformer for Multispectral Object Detection [0.0]
マルチスペクトル画像ペアは、組み合わせた情報を提供し、オブジェクト検出アプリケーションがより信頼性が高く、堅牢になる。
本論文では,CFT (Cross-Modality Fusion Transformer) という,単純かつ効果的なクロスモーダル機能融合手法を提案する。
論文 参考訳(メタデータ) (2021-10-30T15:34:12Z) - Accelerated Multi-Modal MR Imaging with Transformers [92.18406564785329]
MR画像の高速化のためのマルチモーダルトランス(MTrans)を提案する。
トランスアーキテクチャを再構築することで、MTransは深いマルチモーダル情報をキャプチャする強力な能力を得ることができる。
i)MTransはマルチモーダルMRイメージングに改良されたトランスフォーマーを使用する最初の試みであり、CNNベースの手法と比較してよりグローバルな情報を提供する。
論文 参考訳(メタデータ) (2021-06-27T15:01:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。