論文の概要: Multi Loss-based Feature Fusion and Top Two Voting Ensemble Decision
Strategy for Facial Expression Recognition in the Wild
- arxiv url: http://arxiv.org/abs/2311.03478v1
- Date: Mon, 6 Nov 2023 19:30:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 18:05:48.154817
- Title: Multi Loss-based Feature Fusion and Top Two Voting Ensemble Decision
Strategy for Facial Expression Recognition in the Wild
- Title(参考訳): 野生における表情認識のためのマルチロス型特徴融合とトップ2投票アンサンブル決定戦略
- Authors: Guangyao Zhou, Yuanlun Xie, Wenhong Tian
- Abstract要約: 野生における表情認識(FER)は、画像品質に影響を受けやすい課題である。
FERのための特徴融合とアンサンブル戦略を同時に使用する研究はない。
本稿では,R18+FAMLという新しいシングルモデルと,R18+FAML-FGA-T2Vというアンサンブルモデルを提案する。
- 参考スコア(独自算出の注目度): 6.05426481427847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Facial expression recognition (FER) in the wild is a challenging task
affected by the image quality and has attracted broad interest in computer
vision. There is no research using feature fusion and ensemble strategy for FER
simultaneously. Different from previous studies, this paper applies both
internal feature fusion for a single model and feature fusion among multiple
networks, as well as the ensemble strategy. This paper proposes one novel
single model named R18+FAML, as well as one ensemble model named
R18+FAML-FGA-T2V to improve the performance of the FER in the wild. Based on
the structure of ResNet18 (R18), R18+FAML combines internal Feature fusion and
three Attention blocks using Multiple Loss functions (FAML) to improve the
diversity of the feature extraction. To improve the performance of R18+FAML, we
propose a Feature fusion among networks based on the Genetic Algorithm (FGA),
which can fuse the convolution kernels for feature extraction of multiple
networks. On the basis of R18+FAML and FGA, we propose one ensemble strategy,
i.e., the Top Two Voting (T2V) to support the classification of FER, which can
consider more classification information comprehensively. Combining the above
strategies, R18+FAML-FGA-T2V can focus on the main expression-aware areas.
Extensive experiments demonstrate that our single model R18+FAML and the
ensemble model R18+FAML-FGA-T2V achieve the accuracies of $\left( 90.32, 62.17,
65.83 \right)\%$ and $\left( 91.59, 63.27, 66.63 \right)\%$ on three
challenging unbalanced FER datasets RAF-DB, AffectNet-8 and AffectNet-7
respectively, both outperforming the state-of-the-art results.
- Abstract(参考訳): 野生の表情認識(fer)は、画像品質の影響を受ける課題であり、コンピュータビジョンに広く関心を集めている。
FERのための特徴融合とアンサンブル戦略を同時に使用する研究はない。
本稿では,従来の研究と異なり,単一モデルにおける内部的特徴融合と複数ネットワーク間の特徴融合,およびアンサンブル戦略を適用した。
本稿では,R18+FAMLという新しいシングルモデルとR18+FAML-FGA-T2Vというアンサンブルモデルを提案する。
ResNet18 (R18) の構造に基づいて、R18+FAMLは内部のフィーチャーフュージョンと3つのアテンションブロックを組み合わせることで、特徴抽出の多様性を向上させる。
R18+FAMLの性能向上のために,複数のネットワークの特徴抽出のために畳み込みカーネルを融合させる遺伝的アルゴリズム(FGA)に基づくネットワーク間の特徴融合を提案する。
R18+FAMLとFGAに基づいて、より包括的な分類情報を考慮したFERの分類を支援するための1つのアンサンブル戦略、すなわちトップ2投票(T2V)を提案する。
上記の戦略を組み合わせることで、R18+FAML-FGA-T2Vは主要な表現認識領域に集中することができる。
我々のシングルモデル R18+FAML とアンサンブルモデル R18+FAML-FGA-T2V が$\left(90.32, 62.17, 65.83 \right);%$と$\left(91.59, 63.27, 66.63 \right);% 挑戦的不均衡なFERデータセット RAF-DB, AffectNet-8 と AffectNet-7 のそれぞれでそれぞれ、最先端の結果を上回っている。
関連論文リスト
- CTRL-F: Pairing Convolution with Transformer for Image Classification via Multi-Level Feature Cross-Attention and Representation Learning Fusion [0.0]
コンボリューションとトランスフォーマーを組み合わせた,軽量なハイブリッドネットワークを提案する。
畳み込み経路から取得した局所応答とMFCAモジュールから取得したグローバル応答とを融合する。
実験により、我々の変種は、大規模データや低データレギュレーションでスクラッチからトレーニングしたとしても、最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-07-09T08:47:13Z) - Retain, Blend, and Exchange: A Quality-aware Spatial-Stereo Fusion Approach for Event Stream Recognition [57.74076383449153]
本稿では,差分融合によるイベントストリームに基づくパターン認識のための新しいデュアルストリームフレームワークEFV++を提案する。
イベントイメージとイベントボクセルという2つの共通のイベント表現を同時にモデル化する。
Bullying10kデータセットで新しい最先端のパフォーマンス、すなわち90.51%$を達成し、2位を+2.21%$で上回る。
論文 参考訳(メタデータ) (2024-06-27T02:32:46Z) - A Lightweight Attention-based Deep Network via Multi-Scale Feature Fusion for Multi-View Facial Expression Recognition [2.9581436761331017]
これらの問題に対処するために,マルチスケール機能融合(LANMSFF)を取り入れた軽量な注意ネットワークを導入する。
本稿では,マスアテンション(MassAtt)とポイントワイズ機能選択(PWFS)という2つの新しいコンポーネントを提案する。
提案手法は,パラメータ数やロバスト性の観点から,最先端手法に匹敵する結果を得た。
論文 参考訳(メタデータ) (2024-03-21T11:40:51Z) - Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - HiFuse: Hierarchical Multi-Scale Feature Fusion Network for Medical
Image Classification [16.455887856811465]
本稿では,医用画像分類のためのHiFuseと呼ばれる3分岐階層型マルチスケール機能融合ネットワーク構造を提案する。
提案したISICデータセットの精度はベースラインより7.6%高く、Covid-19データセットは21.5%、Kvasirデータセットは10.4%である。
論文 参考訳(メタデータ) (2022-09-21T09:30:20Z) - Magic ELF: Image Deraining Meets Association Learning and Transformer [63.761812092934576]
本稿では,CNN と Transformer を統合化して,画像デライニングにおける学習のメリットを活用することを目的とする。
降雨除去と背景復旧を関連づける新しいマルチインプット・アテンション・モジュール (MAM) を提案する。
提案手法(ELF)は,最先端手法(MPRNet)を平均0.25dB向上させる。
論文 参考訳(メタデータ) (2022-07-21T12:50:54Z) - Progressive Multi-stage Interactive Training in Mobile Network for
Fine-grained Recognition [8.727216421226814]
再帰型モザイク発電機(RMG-PMSI)を用いたプログレッシブ多段階インタラクティブトレーニング手法を提案する。
まず、異なる位相の異なる画像を生成する再帰モザイク発生器(RMG)を提案する。
次に、異なるステージの特徴は、異なるステージの対応する特徴を強化し補完するマルチステージインタラクション(MSI)モジュールを通過する。
RMG-PMSIは高い堅牢性と伝達性で性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-12-08T10:50:03Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - A^2-FPN: Attention Aggregation based Feature Pyramid Network for
Instance Segmentation [68.10621089649486]
アテンションアグリゲーションに基づく機能ピラミッドネットワーク(A2-FPN)を提案し、マルチスケール機能学習を改善します。
A2-FPNは、Cascade Mask R-CNNやHybrid Task Cascadeといった強力なベースラインに統合された場合、2.0%と1.4%のマスクAPを改善する。
論文 参考訳(メタデータ) (2021-05-07T11:51:08Z) - Multi-Attention Based Ultra Lightweight Image Super-Resolution [9.819866781885446]
マルチアテンティブ・フィーチャーフュージョン・スーパーリゾリューション・ネットワーク(MAFFSRN)を提案する。
MAFFSRNは、特徴抽出ブロックとして機能する提案された特徴融合グループ(FFG)から構成される。
我々は,MAFFSRNモデルを用いてAIM 2020の効率的なSRチャレンジに参加し,メモリ使用率,浮動小数点演算(FLOP),パラメータ数でそれぞれ1位,3位,4位を獲得した。
論文 参考訳(メタデータ) (2020-08-29T05:19:32Z) - Bifurcated backbone strategy for RGB-D salient object detection [168.19708737906618]
我々は、RGB-Dの高次物体検出に固有のマルチモーダル・マルチレベルの性質を活用して、新しいカスケードリファインメントネットワークを考案する。
アーキテクチャは Bifurcated Backbone Strategy Network (BBS-Net) と呼ばれ、シンプルで効率的でバックボーンに依存しない。
論文 参考訳(メタデータ) (2020-07-06T13:01:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。