論文の概要: MFEViT: A Robust Lightweight Transformer-based Network for Multimodal
2D+3D Facial Expression Recognition
- arxiv url: http://arxiv.org/abs/2109.13086v1
- Date: Mon, 20 Sep 2021 17:19:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-03 10:41:56.389218
- Title: MFEViT: A Robust Lightweight Transformer-based Network for Multimodal
2D+3D Facial Expression Recognition
- Title(参考訳): MFEViT:マルチモーダル2D+3D顔表情認識のためのロバスト軽量トランスフォーマーネットワーク
- Authors: Hanting Li, Mingzhe Sui, Zhaoqing Zhu, Feng Zhao
- Abstract要約: 視覚変換器(ViT)はその自己保持機構のため、多くの分野で広く応用されている。
我々は,マルチモーダル2D+3D FER,すなわちMFEViTのための,堅牢で軽量な純粋なトランスフォーマーベースネットワークを提案する。
我々のMFEViTは、BU-3DFEで90.83%、Bosphorusで90.28%の精度で最先端のアプローチより優れている。
- 参考スコア(独自算出の注目度): 1.7448845398590227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformer (ViT) has been widely applied in many areas due to its
self-attention mechanism that help obtain the global receptive field since the
first layer. It even achieves surprising performance exceeding CNN in some
vision tasks. However, there exists an issue when leveraging vision transformer
into 2D+3D facial expression recognition (FER), i.e., ViT training needs mass
data. Nonetheless, the number of samples in public 2D+3D FER datasets is far
from sufficient for evaluation. How to utilize the ViT pre-trained on RGB
images to handle 2D+3D data becomes a challenge. To solve this problem, we
propose a robust lightweight pure transformer-based network for multimodal
2D+3D FER, namely MFEViT. For narrowing the gap between RGB and multimodal
data, we devise an alternative fusion strategy, which replaces each of the
three channels of an RGB image with the depth-map channel and fuses them before
feeding them into the transformer encoder. Moreover, the designed sample
filtering module adds several subclasses for each expression and move the noisy
samples to their corresponding subclasses, thus eliminating their disturbance
on the network during the training stage. Extensive experiments demonstrate
that our MFEViT outperforms state-of-the-art approaches with an accuracy of
90.83% on BU-3DFE and 90.28% on Bosphorus. Specifically, the proposed MFEViT is
a lightweight model, requiring much fewer parameters than multi-branch CNNs. To
the best of our knowledge, this is the first work to introduce vision
transformer into multimodal 2D+3D FER. The source code of our MFEViT will be
publicly available online.
- Abstract(参考訳): 視覚変換器(ViT)は、第1層から世界受容場を得るのに役立つ自己認識機構のため、多くの分野で広く応用されている。
いくつかのビジョンタスクでcnnを超える驚くべきパフォーマンスを達成している。
しかし、視覚変換器を2D+3D表情認識(FER)に活用する場合、すなわち、ViTトレーニングには質量データが必要である。
それでも、公開2D+3D FERデータセットのサンプル数は、評価に十分ではない。
rgbイメージで事前トレーニングされたvitを2d+3dデータを処理する方法が課題となる。
そこで本研究では,マルチモーダル2D+3D FER,すなわちMFEViTのための軽量なトランスフォーマーネットワークを提案する。
RGBとマルチモーダルデータのギャップを狭めるために、RGB画像の3つのチャネルそれぞれを深度マップチャネルに置き換えて、トランスフォーマーエンコーダに供給する前にそれらを融合する、代替の融合戦略を考案する。
さらに、設計されたサンプルフィルタリングモジュールは、各式にいくつかのサブクラスを追加し、ノイズの多いサンプルを対応するサブクラスに移動することで、トレーニング段階でネットワーク上の障害を取り除く。
我々のMFEViTは、BU-3DFEで90.83%、Bosphorusで90.28%の精度で最先端のアプローチより優れていることを示した。
具体的には、MFEViTは軽量モデルであり、マルチブランチCNNよりもはるかに少ないパラメータを必要とする。
我々の知る限り、これは視覚変換器をマルチモーダル2D+3D FERに導入する最初の試みである。
MFEViTのソースコードはオンラインで公開されます。
関連論文リスト
- EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - Rethinking Vision Transformer and Masked Autoencoder in Multimodal Face
Anti-Spoofing [19.142582966452935]
RGB、赤外線(IR)、深度によるマルチモーダルFASのためのViTにおける3つの重要な要素(入力、事前学習、微調整)について検討した。
マルチモーダルFAS自己教師型事前学習のためのモダリティ非対称マスク付きオートエンコーダ (M$2$A$2$E) を提案する。
論文 参考訳(メタデータ) (2023-02-11T17:02:34Z) - RangeViT: Towards Vision Transformers for 3D Semantic Segmentation in
Autonomous Driving [80.14669385741202]
視覚変換器(ViT)は多くの画像ベースのベンチマークで最先端の結果を得た。
ViTはトレーニングが難しいことで知られており、強力な表現を学ぶために大量のトレーニングデータを必要とする。
提案手法はRangeViTと呼ばれ,nuScenes や Semantic KITTI において既存のプロジェクションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-24T18:50:48Z) - MVTN: Learning Multi-View Transformations for 3D Understanding [60.15214023270087]
本稿では,3次元形状認識のための最適視点を決定するために,可変レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を提案する。
MVTNは3次元形状認識のためのマルチビューネットワークでエンドツーエンドに訓練することができる。
提案手法は,複数のベンチマークによる3次元分類と形状検索における最先端性能を示す。
論文 参考訳(メタデータ) (2022-12-27T12:09:16Z) - A Strong Transfer Baseline for RGB-D Fusion in Vision Transformers [0.0]
単視点3Dオブジェクト認識のためのRGB-Dドメインで事前学習したViTを転送するためのレシピを提案する。
我々の適応したViTsは、ワシントン州で95.1%の精度で評価され、このベンチマークで新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-10-03T12:08:09Z) - Pix4Point: Image Pretrained Standard Transformers for 3D Point Cloud
Understanding [62.502694656615496]
本稿では、プログレッシブ・ポイント・パッチ・エンベディングと、PViTと呼ばれる新しいポイント・クラウド・トランスフォーマーモデルを提案する。
PViTはTransformerと同じバックボーンを共有しているが、データに対して空腹が少ないことが示されており、Transformerは最先端技術に匹敵するパフォーマンスを実現することができる。
我々は、イメージ領域で事前訓練されたトランスフォーマーを活用して、下流のクラウド理解を強化する、シンプルで効果的なパイプライン「Pix4Point」を定式化します。
論文 参考訳(メタデータ) (2022-08-25T17:59:29Z) - CAT-Det: Contrastively Augmented Transformer for Multi-modal 3D Object
Detection [32.06145370498289]
マルチモーダル3Dオブジェクト検出(CAT-Det)のためのコントラスト変換器を提案する。
CAT-DetはPointformer (PT) ブランチと Imageformer (IT) ブランチとCMT (Cross-Modal Transformer) モジュールで構成される2ストリーム構造を採用している。
本稿では,一方向マルチモーダルデータ拡張(OMDA)手法を提案する。
論文 参考訳(メタデータ) (2022-04-01T10:07:25Z) - Multimodal Fusion Transformer for Remote Sensing Image Classification [35.57881383390397]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、期待できる性能のため、画像分類タスクにおいてトレンドとなっている。
CNNに近い満足なパフォーマンスを達成するために、トランスフォーマーはより少ないパラメータを必要とする。
HSI土地被覆分類のためのマルチヘッドクロスパッチアテンション(mCrossPA)を含む新しいマルチモーダルフュージョントランス (MFT) ネットワークを導入する。
論文 参考訳(メタデータ) (2022-03-31T11:18:41Z) - Coarse-to-Fine Vision Transformer [83.45020063642235]
性能を維持しながら計算負担を軽減するための粗視変換器(CF-ViT)を提案する。
提案するCF-ViTは,近代的なViTモデルにおける2つの重要な観測によって動機付けられている。
CF-ViTはLV-ViTのFLOPを53%削減し,スループットも2.01倍に向上した。
論文 参考訳(メタデータ) (2022-03-08T02:57:49Z) - TerViT: An Efficient Ternary Vision Transformer [21.348788407233265]
視覚変換器(ViT)は、様々な視覚的タスクにおいて大きな可能性を秘めているが、リソース制約されたデバイスに展開する際には、高価な計算とメモリコストの問題に悩まされている。
実測値と三次パラメータ間の大きな損失表面ギャップに挑戦する3次視覚変換器(TerViT)を導入する。
論文 参考訳(メタデータ) (2022-01-20T08:29:19Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。