Fugu-MT 論文翻訳(概要): FER-YOLO-Mamba: Facial Expression Detection and Classification Based on Selective State Space

論文の概要: FER-YOLO-Mamba: Facial Expression Detection and Classification Based on Selective State Space

arxiv url: http://arxiv.org/abs/2405.01828v1
Date: Fri, 3 May 2024 03:20:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-06 13:55:11.046739
Title: FER-YOLO-Mamba: Facial Expression Detection and Classification Based on Selective State Space
Title（参考訳）: FER-YOLO-Mamba:選択状態空間に基づく表情の検出と分類
Authors: Hui Ma, Sen Lei, Turgay Celik, Heng-Chao Li,
Abstract要約: 本稿では,マンバとヨロの原理を統合したFER-YOLO-Mambaモデルを提案する。 FER-YOLO-Mambaモデルでは,局所特徴抽出における畳み込み層固有の強度を組み合わせたFER-YOLO-VSSデュアルブランチモジュールをさらに考案する。私たちの知る限りでは、顔の表情検出と分類のために設計された最初のVision Mambaモデルである。
参考スコア（独自算出の注目度）: 9.68374853606234
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Facial Expression Recognition (FER) plays a pivotal role in understanding human emotional cues. However, traditional FER methods based on visual information have some limitations, such as preprocessing, feature extraction, and multi-stage classification procedures. These not only increase computational complexity but also require a significant amount of computing resources. Considering Convolutional Neural Network (CNN)-based FER schemes frequently prove inadequate in identifying the deep, long-distance dependencies embedded within facial expression images, and the Transformer's inherent quadratic computational complexity, this paper presents the FER-YOLO-Mamba model, which integrates the principles of Mamba and YOLO technologies to facilitate efficient coordination in facial expression image recognition and localization. Within the FER-YOLO-Mamba model, we further devise a FER-YOLO-VSS dual-branch module, which combines the inherent strengths of convolutional layers in local feature extraction with the exceptional capability of State Space Models (SSMs) in revealing long-distance dependencies. To the best of our knowledge, this is the first Vision Mamba model designed for facial expression detection and classification. To evaluate the performance of the proposed FER-YOLO-Mamba model, we conducted experiments on two benchmark datasets, RAF-DB and SFEW. The experimental results indicate that the FER-YOLO-Mamba model achieved better results compared to other models. The code is available from https://github.com/SwjtuMa/FER-YOLO-Mamba.
Abstract（参考訳）: 表情認識(FER)は人間の感情的手がかりを理解する上で重要な役割を担っている。しかし,視覚情報に基づく従来のFER手法には,前処理や特徴抽出,多段階分類などの制限がある。これらは計算複雑性を増大させるだけでなく、膨大な計算資源を必要とする。畳み込みニューラルネットワーク(CNN)に基づくFERスキームは,表情画像に埋め込まれた深度,長距離依存性,およびトランスフォーマー固有の2次計算複雑性の同定に不適切であることをしばしば証明することを考えると,マンバとヨロの原理を統合したFER-YOLO-Mambaモデルを提示し,表情画像認識と局所化の効率的な調整を容易にする。 FER-YOLO-Mambaモデルでは,局所特徴抽出における畳み込み層固有の強みと,長距離依存性を明らかにするための状態空間モデル(SSM)の例外的機能を組み合わせたFER-YOLO-VSSデュアルブランチモジュールをさらに考案する。私たちの知る限りでは、顔の表情検出と分類のために設計された最初のVision Mambaモデルである。提案したFER-YOLO-Mambaモデルの性能を評価するため,RAF-DBとSFEWの2つのベンチマークデータセットを用いて実験を行った。実験結果から,FER-YOLO-Mambaモデルが他のモデルよりも優れた結果を得たことが示唆された。コードはhttps://github.com/SwjtuMa/FER-YOLO-Mambaから入手できる。

関連論文リスト

FRISM: Fine-Grained Reasoning Injection via Subspace-Level Model Merging for Vision-Language Models [20.47311573790516]
FRISM(Fine-fine Reasoning Injection via Subspace-level Model Merging)を提案する。実験により、FRISMはモデルの本来の視覚能力を損なうことなく推論能力を効果的に改善することが示された。
論文参考訳（メタデータ） (2026-01-29T02:36:19Z)
HyM-UNet: Synergizing Local Texture and Global Context via Hybrid CNN-Mamba Architecture for Medical Image Segmentation [3.976000861085382]
HyM-UNet は,CNN の局所的特徴抽出能力を,Mamba の効率的なグローバルモデリング能力と相乗化するために設計された。エンコーダとデコーダのセマンティックギャップを埋めるため,Mamba-Guided Fusion Skip Connectionを提案する。その結果,HyM-UNetはDice係数とIoUで既存の最先端手法を著しく上回ることがわかった。
論文参考訳（メタデータ） (2025-11-22T09:02:06Z)
LTD-Bench: Evaluating Large Language Models by Letting Them Draw [57.237152905238084]
LTD-Benchは、大規模言語モデル(LLM)のブレークスルーベンチマークである。 LLMの評価を抽象的なスコアから直接観察可能な視覚出力に変換する。 LTD-Benchの視覚出力は強力な診断分析を可能にし、モデル類似性を調べるための潜在的アプローチを提供する。
論文参考訳（メタデータ） (2025-11-04T08:11:23Z)
See, Think, Act: Online Shopper Behavior Simulation with VLM Agents [58.92444959954643]
本稿では,視覚情報,特にWebページスクリーンショットのVLMによる動作シミュレーションへの統合について検討する。我々は,協調行動予測と合理化生成にSFTを用いて,相互作用の完全な文脈を条件づける。推論能力をさらに強化するため,RLを階層的な報酬構造と統合し,難易度因子によって拡張する。
論文参考訳（メタデータ） (2025-10-22T05:07:14Z)
FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities [76.46448367752944]
MLLM(Multimodal large language model)は、単一のフレームワーク内で視覚的理解と画像生成を統一する言語である。ほとんどの既存のMLLMはAutore(AR)アーキテクチャに依存しており、将来の開発に固有の制限を課している。本稿では,離散フローマッチングに基づく統一マルチモーダルモデルであるFUDOKIを紹介する。
論文参考訳（メタデータ） (2025-05-26T15:46:53Z)
Hypergraph Mamba for Efficient Whole Slide Image Understanding [10.285000840656808]
ホイルスライド画像 (WSI) は, 超高解像度, 大規模, 複雑な空間関係のため, 医用画像解析において重要な課題となっている。本稿では,ハイパーグラフニューラルネットワーク(HGNN)の高次リレーショナルモデリング機能と状態空間モデルの線形時間逐次モデリング効率を一体化する新しいフレームワークであるWSI-HGMambaを紹介する。
論文参考訳（メタデータ） (2025-05-23T04:33:54Z)
MedVKAN: Efficient Feature Extraction with Mamba and KAN for Medical Image Segmentation [1.376408511310322]
医用画像セグメンテーションは、伝統的に畳み込みニューラルネットワーク(CNN)とトランスフォーマーベースのモデルに依存してきた。トランスフォーマーモジュールの代替として,VSSと拡張フィールド畳み込みKAN(EFC-KAN)を統合したVSS拡張KAN(VKAN)モジュールを提案する。さらに,VKANをU-Netフレームワークに組み込むことで,医用画像の効率的な分割モデルであるMedVKANを実現する。
論文参考訳（メタデータ） (2025-05-17T02:56:58Z)
Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文参考訳（メタデータ） (2025-04-10T04:09:47Z)
DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。 LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2025-02-18T02:37:26Z)
Using Machine Learning to Discover Parsimonious and Physically-Interpretable Representations of Catchment-Scale Rainfall-Runoff Dynamics [1.1510009152620668]
機械学習の未調査の側面は、最小限の最適表現を開発する方法である。我々の見解では、MLに基づくモデリングは、設計によって根本的に解釈可能な計算単位をベースとすべきである。本研究では,比較的類似した分散状態ネットワークを用いて,物理的解釈可能性と予測性能を両立させることができることを示す。
論文参考訳（メタデータ） (2024-12-06T08:30:01Z)
Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。 HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文参考訳（メタデータ） (2024-10-04T06:19:29Z)
Hierarchical Spatio-Temporal State-Space Modeling for fMRI Analysis [1.7329715392023939]
機能的マンバ(FST-Mamba, FST-Mamba)は,fMRIを用いた神経バイオマーカーの発見を目的とした機能的マンバ(FST-Mamba)モデルである。脳ネットワーク内の個々のコンポーネント間の接続を集約するコンポーネントワイド・バラエティ・スケール・アグリゲーション(CVA)機構を提案する。実験結果から,脳の分類と回帰作業におけるFST-Mambaモデルの有効性が示唆された。
論文参考訳（メタデータ） (2024-08-23T13:58:14Z)
Mamba YOLO: SSMs-Based YOLO For Object Detection [9.879086222226617]
Mamba-YOLOはステートスペースモデルに基づく新しい物体検出モデルである。本報告では,マンバヨロが既存のYOLOシリーズモデルを上回る性能と競争性を示す。
論文参考訳（メタデータ） (2024-06-09T15:56:19Z)
Mamba-in-Mamba: Centralized Mamba-Cross-Scan in Tokenized Mamba Model for Hyperspectral Image Classification [4.389334324926174]
本研究では、このタスクにステートスペースモデル(SSM)をデプロイする最初の試みである、HSI分類のための革新的なMamba-in-Mamba(MiM)アーキテクチャを紹介する。 MiMモデルには,1)イメージをシーケンスデータに変換する新しい集中型Mamba-Cross-Scan(MCS)機構,2)Tokenized Mamba(T-Mamba)エンコーダ,3)Weighted MCS Fusion(WMF)モジュールが含まれる。 3つの公開HSIデータセットによる実験結果から,本手法は既存のベースラインや最先端アプローチよりも優れていることが示された。
論文参考訳（メタデータ） (2024-05-20T13:19:02Z)
MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。 SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文参考訳（メタデータ） (2024-04-13T13:39:26Z)
Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文参考訳（メタデータ） (2023-10-06T10:40:46Z)
INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文参考訳（メタデータ） (2022-04-18T23:09:23Z)
Multi-Branch Deep Radial Basis Function Networks for Facial Emotion Recognition [80.35852245488043]
放射状基底関数(RBF)ユニットによって形成された複数の分岐で拡張されたCNNベースのアーキテクチャを提案する。 RBFユニットは、中間表現を用いて類似のインスタンスで共有される局所パターンをキャプチャする。提案手法は,提案手法の競争力を高めるためのローカル情報の導入であることを示す。
論文参考訳（メタデータ） (2021-09-07T21:05:56Z)
Self-Regression Learning for Blind Hyperspectral Image Fusion Without Label [11.291055330647977]
ハイパースペクトル画像(HSI)を再構築した自己回帰学習法を提案し,観察モデルを推定する。特に,hsiを復元するinvertible neural network (inn) と,観測モデルを推定する2つの完全連結ネットワーク (fcn) を採用している。我々のモデルは、合成データと実世界のデータセットの両方で実験で最先端の手法を上回ることができる。
論文参考訳（メタデータ） (2021-03-31T04:48:21Z)
Video-based Facial Expression Recognition using Graph Convolutional Networks [57.980827038988735]
我々は、ビデオベースの表情認識のための共通のCNN-RNNモデルに、GCN(Graph Convolutional Network)層を導入する。我々は、CK+、Oulu-CASIA、MMIの3つの広く使われているデータセットと、AFEW8.0の挑戦的なワイルドデータセットについて、本手法の評価を行った。
論文参考訳（メタデータ） (2020-10-26T07:31:51Z)
Kernelized dense layers for facial expression recognition [10.98068123467568]
本稿では,従来の線形関係ではなく,高次特徴相互作用をキャプチャするカーネル化Dense Layer (KDL)を提案する。本モデルでは,最先端のアプローチに関して,競争力のある結果が得られることを示す。
論文参考訳（メタデータ） (2020-09-22T21:02:00Z)
Multi-Margin based Decorrelation Learning for Heterogeneous Face Recognition [90.26023388850771]
本稿では,超球面空間におけるデコリレーション表現を抽出するディープニューラルネットワーク手法を提案する。提案するフレームワークは,不均一表現ネットワークとデコリレーション表現学習の2つのコンポーネントに分けることができる。 2つの難解な異種顔データベースに対する実験結果から,本手法は検証タスクと認識タスクの両方において優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2020-05-25T07:01:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。